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内 容 简 介 


这 是 一 本 写 给 初学 者 的 书 , 目 的 是 帮助 读者 理解 大 数据 下 概率 统计 等 概念 的 意义 , 写 
作 中 以 案例 作 先 导 , 引 起 读者 的 兴趣 和 思考 ,在 解答 问题 的 过 程 中 讲述 知识 。 

本 书 共有 9 章 ,第 1 章 和 第 2 章 介绍 概率 和 随机 变量 的 基础 知识 ;第 3 章 和 第 4 章 介 
绍 统计 和 分 布 的 基础 知识 ;第 5 章 是 专门 介绍 赌博 中 的 概率 统计 的 一 章 , 前 四 章 的 知识 在 
这 里 得 到 了 应 用 ;第 6、7.、8 章 分 别 介绍 了 概率 统计 的 三 个 重要 方法 一 一 假设 检验 、 贝 叶 斯 
定理 和 线性 回归 ;第 9 章 是 漫谈 概率 统计 。 本 书 努 力 避 开 说 教 式 的 言辞 ,把 知识 融入 故事 
中 ,在 讲解 知识 的 同时 , 带 给 读者 阅读 的 乐趣 。 是 一 本 难得 的 适合 所 有 对 概率 统计 感 兴趣 或 
者 学 习 有 需求 的 读者 阅读 。 和 希望 本 书 可 以 帮助 读者 更 快速 ,更 深刻 地 理解 和 应 用 大 数据 。 
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凯 文 ， 凯 利 在 (失控 》 中 曾 提 道 , 当 高 度 互联 的 低级 群 
体 的 数量 大 到 一 定 程度 时 ,群体 特征 便 会 涌现 出 来 ,这 特 
征 是 群体 中 的 任何 个 体 都 不 具备 的 。 比 如 ,大 量 水 滴 汇 集 
成 河水 、 海 水 , 便 会 产生 让 水 滴 “ 感 到 陌生 ”的 新 特征 一 一 
流 涡 和 波浪 。 

2013 年 8 月 ,谷歌 公司 提出 了 一 个 票房 预测 模型 ,该 模 
型 仅 以 单词 搜索 量 为 依据 , 便 可 以 提前 一 个 月 预测 电影 的 
BARR EHRAM 。 更 令 人 惊讶 的 是 ,这 是 一 个 简 
单 的 线性 回归 模型 。 谷 歌 是 如 何 做 到 的 呢 ? 

人 类 对 数据 的 处 理 已 经 进入 大 数据 时 代 。 可 是 , 绝 大 
多 数 的 人 ,对 数据 统计 等 基本 常识 还 在 算术 常识 时 代 。 这 
是 一 个 科技 的 时 代 , 相 对 于 十 年 前 和 二 十 年 前 ,全 球 市 值 
最 大 最 受 人 尊敬 的 公司 Top 10, 全 部 变 成 了 苹果 、 微 软 、 
Gpogle…… 这 些 高 科技 公司 ,任何 普通 人 都 用 智能 手机 , 任 
何人 都 在 享受 高 科技 技术 带 来 的 便利 。 为 了 更 好 地 工作 
和 生活 ,我 们 要 了 解 一 下 这 些 高 科技 技术 的 常识 。 笔 者 在 
这 方面 有 一 些 经 验 ,所 以 特地 编写 了 本 书 ,希望 以 比较 科 
普 和 有 趣 的 笔调 ,让 你 了 解 一 门 新 的 科学 ,甚至 进入 一 个 
新 的 领域 。 

大 学 本 科 时 ,我 曾 上 过 “概率 论 ” 和 “数理 统计 ”两 门 课 ， 
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虽然 完整 地 学 习 了 概率 统计 , 却 只 是 一 知 半 解 。 攻 读 硕士 时 ,我 在 科研 工作 中 
需要 用 到 概率 统计 ,方才 无 奈 地 发 现 ,当年 所 学 已 完 完全 全 地 还 给 了 老师 。 我 
只 能 匆忙 地 自学 了 概率 统计 ,勉强 能 应 付 科研 工作 ,但 心中 对 概率 统计 的 很 多 
概念 仍旧 一 头 雾 水 。 后 来 ,我 有 幸 与 我 的 妻子 走 到 了 一 起 ,她 大 学 本 科 和 硕士 
期 间 都 主 修 “ 应 用 数学 ”专业 ,在 她 的 帮助 下 ,我 这 个 概率 统计 的 门外汉 终于 入 
ft. 

硕士 毕业 前 ,我 和 妻子 共同 翻译 了 一 部 英文 科普 读物 4 让 你 爱 上 数学 的 0 
个 游戏 》, 这 本 书 帮助 我 进一步 巩固 了 概率 统计 知识 ,也 让 我 博 生 了 写 书 的 念 
头 。 毕 业 后 我 仍 从 事 科研 工作 ,参与 了 几 个 与 数据 分 析 有 关 的 项 目 , 发 现 自己 
对 概率 统计 的 理解 仍然 不 够 深刻 。 于 是 我 一 口气 阅读 了 几 本 概率 统计 的 科普 
书 ,比如 (深入浅出 数据 分 析 兴 深入 浅 出 统计 学 》 和 《生活 中 的 概率 趣事 》, 终 于 
搞 懂 了 “ 贝 叶 斯 定理 “假设 检验 ”等 概念 。 看 书 之 余 , 我 在 “ 简 书 * 上 写 了 几 篇 
读书 心得 。 出 版 社 的 编辑 看 到 我 写 的 文章 , 问 我 是 否 愿意 写 一 本 概率 统计 的 
科普 书 , 说 实话 ,能 写作 一 本 属于 自己 的 书 是 我 的 小 小 理想 ,既然 机 会 来 了 ,我 
BARER?! 
始 写作 前 ,我 为 自己 设 定 了 三 个 原则 。 
一 是 理解 而 非 定 义 。 概 率 统计 的 教科 书 里 充满 了 数学 公式 ,虽然 数学 公 
式 能 对 抽象 的 概念 做 出 精确 的 定义 ,但 这 样 的 定义 太 星 涩 ,难以 理解 。 这 是 一 
本 写 给 初学 者 的 书 , 我 想 帮助 读者 理解 概念 的 含义 ,而 非 怎 么 求解 某 个 具体 问 
题 。 所 以 ,我 会 用 解释 性 的 语言 来 描述 概念 , 而 不 是 给 出 标准 的 定义 。 这 么 做 
风险 很 大 ,但 我 愿意 尝试 ,希望 本 书 可 以 帮助 读者 更 快速 、 更 深刻 地 理解 概念 。 

二 是 引导 而 非 灌输 。 从 小 到 大 ,我 们 都 承受 了 太 多 的 灌输 式 教育 ,我 很 庆 
幸 , 自 己 在 灌输 式 教育 下 活 了 下 来 ,但 我 不 希望 “灌输 ”给 读者 任何 东西 。 所 
以 ,我 总 是 以 案例 作 先 导 , 先 引起 读者 的 兴趣 和 思考 ,然后 在 解答 问题 的 过 程 
中 讲述 知识 。 希 望 这 么 做 可 以 为 读者 减负 ,让 读者 更 流畅 的 阅读 ,在 轻松 愉快 
中 学 到 知识 。 

三 是 有 趣 而 非 无 趣 。 很 多 人 说 ,“ 有 趣 ” 是 对 一 个 人 最 高 的 评价 。 我 觉得 ， 
对 一 本 书 同样 如 此 。 图 书 销售 排行 榜 上 ,小 说 永远 是 主角 ,因为 它们 “有 趣 ”。 
读者 喜欢 故事 ,不 喜欢 说 教 , 这 是 事实 ,更 是 真理 。 我 要 努力 避 开 说 教 式 的 言 
辞 ,把 知识 融入 故事 中 ,在 讲解 知识 的 同时 , 带 给 读者 阅读 的 乐趣 。 
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写作 时 ,我 尽量 坚持 这 三 个 原则 ,虽然 期 间 有 过 挣扎 和 迷茫 ,但 最 终 还 是 
完成 了 这 本 书 。 

本 书 共 有 9 章 , 第 1 章 和 第 2 章 介 绍 概率 和 随机 变量 的 基础 知识 ;第 3 章 和 
第 4 章 介绍 统计 和 分 布 的 基础 知识 ;第 5 章 是 专门 介绍 赌博 中 的 概率 统计 的 一 
章 ,前 4 章 的 知识 在 这 里 得 到 了 应 用 ;第 6.7.8 章 分 别 介 绍 了 概率 统计 的 三 个 重 
要 方法 一 一 假设 检验 、 贝 叶 斯 定理 和 线性 回归 ;第 9 章 是 漫谈 概率 统计 。 

我 的 阅读 建议 是 : 第 1.2 章 合并 阅读 ,第 3.4 章 合并 阅读 ,在 前 4 章 阅读 完 
成 后 ,再 阅读 第 5.6、7、8.9 章 ,后 5 章 各 自 独 立 , 不 需要 按 顺 序 阅读 。 

本 书 由 李 帅 主笔 编写 ,同时 参与 编写 的 还 有 黄 维 、 金 宝 花 、 李 阳 、 程 斌 、 胡 
亚 丽 、 焦 帅 伟 、 马 新 原 、 能 永 霞 、 王 雅 琼 、 于 健 、 周 洋 、 谢 国 瑞 、 朱 珊 丙 、 李 亚 杰 、 王 
NEES. FH RAL SEA REA REY KS CRE KRM, 
吕 梦 琪 等 作者 。 在 此 一 并 感谢 。 

这 是 我 的 第 一 本 书 ,其 中 难免 出 现 错误 ,希望 读者 理解 包涵 ,也 欢迎 读者 
批评 指正 。 

如 果 你 读 过 本 书 , 想 与 我 沟通 ,欢迎 通过 Email 联系 我 : Tishuaibeijing@ 
1630m. 

最 后 ,我 要 感谢 我 的 家 人 和 朋友 。 感 谢 我 的 父母 ,陪伴 我 成 长 ,帮助 我 养 
成 了 读书 和 写作 的 习惯 。 感 谢 我 的 妻子 ,一 直 理解 我 陪伴 我 ,并 给 我 讲解 了 
一 些 星 涩 的 数学 概念 。 感 谢 刘 子 冲 、 王 充 山 、 秦 培根 、 刘 机 、 孙 杯 、 赵 玮 琪 等 老 
朋友 ,你 们 的 支持 和 鼓励 是 我 坚持 写作 的 动力 ! 
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导语 : 我 们 生活 的 世界 ,是 确定 的 还 是 不 确定 的 ? 自古 至 今 , 人 
们 一 直 试 图 回答 这 个 哲学 命题 。 一 方面 我 们 确信 ,苹果 熟 透 后 会 从 
树 上 掉 下 来 ; 另 一 方面 我 们 又 无 法 确信 , 抛 起 的 硬币 落 到 地 上 时 , 哪 
一 面 会 朝 上 。 


LL 生还 是 死 : 这 是 一 个 概率 问题 


2012 年 7 H 21 日 ,北京 大 雨 倾 使 ,事后 这 一 天 被 称 为 “北京 ?7 21 特大 暴 


雨 "。 下 午 两 点 ,我 接 到 父亲 的 电话 ,要 我 赶快 回 东北 老家 。 家 中 病危 的 爷爷 


快 挺 不 住 了 。 


我 抓 起 外 套 出 了 门 . 冒 着 大 雨 疯狂 地 跑 进 地 铁 , 奔 向 北京 站 。 
第 二 天 傍晚 五 点 半 , 我 下 了 火车 , 直 奔 医院 。 病 床 前 ,我 看 到 瘦 骨 崂 赂 的 


和 爷爷 暑 缩 在 那里 ,已 经 没 了 意识 , 奋 奋 一 息 。 八 点 整 ,爷爷 血压 又 降 , 医 生 对 父 
亲 点 了 点 头 ,时 辰 到 了 。 我 终究 没 能 和 和 爷爷 说 上 最 后 一 句 话 。 


后 来 ,我 常会 梦 到 和 爷 和 苑 。 在 梦 中 ,他 和 苑 坐 在 青绿 色 的 老式 沙发 上 , 戴 着 折 重 
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式 老 花镜 , 饶 有 兴致 地 看 《城市 晚报 》。 我 似乎 记得 爷爷 已 经 去 世 了 ,但 又 分 
明 看 到 爷爷 就 坐 在 那里 。 那 一 刻 , 梦 中 的 那 一 刻 , 我 真 的 分 不 清 爷 和 爷 是 生还 
是 死 。 
生死 与 有 无 、 对 错 一 样 ,都 是 鲜明 对 立 的 东西 ,它们 看 似 是 两 条 平行 的 直 
线 , 永 不 相交 。 然 而 , 梦 中 的 我 却 分 不 清和 爷爷 是 生还 是 死 。 生 与 死 真 的 永 无 相 
交 的 可 能 吗 ? 


应 溪 桥 上 的 法 克 尔 


F 面 是 美国 小 说 家 安 布鲁斯 布尔 斯 的 小 说 4 鹰 溪 桥 上 》 的 片段 节选 , 故 
事 发 生 在 美国 南北 战争 期 间 , 讲 述 的 是 农场 主 法 克 尔 被 处 以 绞刑 的 故事 。 


亚 拉巴 马 州 北 部 的 铁路 桥 上 ,一 个 男人 站 在 那里 ,俯视 着 桥 下 二 十 米 处 那 
涡 急 的 流水 。 这 人 的 双手 被 人 用 绳子 绑 在 身后 ,一 根 绳索 紧 紧 地 套 在 他 的 颈 
部 ,绳索 的 另 一 端 被 系 在 他 头顶 上 方 交叉 着 的 架子 上 ,一 段 绳子 松 松 垮 垮 地 垂 
在 他 的 膝盖 处 。 铁 轨 枕 木 上 铺 着 几 块 木板 ,他 和 要 对 他 行刑 的 一 名 中 士 和 两 
名 列兵 就 站 在 上 面 。 

那个 即将 被 施 以 绞刑 的 男人 看 起 来 大 约 35 岁 ,一 副 平民 的 装扮 。 如 果 从 
他 的 举止 行为 来 看 ,他 像 是 一 位 庄园 的 农场 主 。 他 五 官 端正 一 一 鼻子 高 手 , 嘴 
后 坚毅 ,额头 饱满 ,长 长 的 黑 发 顺 直 地 披 在 脑 后 ,他 的 眼睛 大 而 乌黑 ,面目 和 
善 ,人 们 很 难 想象 到 这 人 即将 被 施 以 绞刑 而 死 。 

他 索性 睁 开 了 眼睛 ,看 到 了 他 身 下 的 流水 。“ 如 果 我 能 把 双手 挣脱 ,” 他 心 
里 这 样 想 着 ,我 就 能 摆脱 颈 上 的 绳索 , 跳 到 河 里 去 ,然后 潜 到 水 下 躲避 那些 子 
弹 ,拼命 地 游 到 河岸 边 , 钻 进 那里 的 森林 ,就 能 跑 回 家 了 。 谢 天 谢 地 ,我 家 不 在 
他 们 的 封锁 线 里 ,我 的 麦子 和 孩子 们 离 他 们 的 先头 部 队 还 有 些 距离 ”正当 这 
些 想 法 在 犯人 脑 中 闪 过 时 .上尉 对 中 士 点 头 示 意 。 中 士 从 那 块 木板 上 跨 到 了 
一 边 。 

当 法 克 尔 从 桥 上 径直 地 向 下 坠落 时 ,他 已 经 没有 了 意识 ,就 像 是 死 了 一 
样 。 仿 佛 过 了 很 久 , 颈 部 剧烈 地 挤 压 所 带 来 的 疼痛 使 他 从 这 种 状态 中 清醒 了 
过 来 ,接着 就 感到 了 室 息 。 他 知道 那 条 绳索 已 经 断 了 ,他 险 入 了 河中 , 那 种 室 
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息 的 感觉 没有 加 剧 。 他 在 黑暗 中 睁 开 了 眼睛 ,看 到 了 他 上 方 的 一 道 亮 光 。 他 
的 两 只 手 快速 的 向 下 拍 水 ,使 身体 上 浮 , 他 感觉 自己 的 脑袋 已 经 浮 出 了 水 面 ， 
粮 目 的 阳光 使 得 他 睁 不 开眼 睛 。 他 看 到 了 那 座 桥 ,以 及 给 他 施 以 绞刑 的 执行 
者 ,他 们 正大 喊 着 用 手指 向 这 边 , 子 弹射 到 水 里 , 离 他 的 头 只 有 几 英 寸 的 距离 ， 
溅 起 的 水 花 打 在 他 的 脸 上 。 

法 克 尔 猛 地 向 水 下 潜 去 ,尽量 钻 到 水 的 深 处 。 法 克 尔 在 演 急 的 流水 中 奋 
力 地 划 水 ,他 思维 清晰 ,四 肢 越发 有 力 ,心里 想 着 :“ 上 帝 保 估 我 , 保 估 我 能 躲 
过 所 有 的 子弹 1” 

突然 ,他 感觉 自己 开始 一 图 图 地 旋转 起 来 , 像 陀 螺 一 样 。 水 面 、 河 岸 、 树 
林 , 已 经 离 得 很 远 的 桥 ,还 有 那 军事 堡 仗 和 那些 士兵 ,都 搅 到 了 一 起 , 变 得 模糊 
不 清 。 水 中 的 一 处 湾 涡 将 他 卷 了 起 来 , 没 过 一 会 儿 , 他 就 被 水 流 抛 到 了 左岸 边 
的 一 堆 砾 石上 。 他 喜 极 而 注 ,两 手 抓 起 泥 沙 ,一 把 把 的 往 上 扬 , 落 到 自己 身上 ， 
喃 喃 地 说 着 一 些 祝 福 的 词句 。 他 跃 身 而 起 ,迅速 地 往 坡 上 的 岸 边 跑 去 , 钻 进 了 
那 片 树林 。 

那 一 天 ,他 都 依照 着 太阳 往 前 走 , 那 片 树林 太 过 茂密 , 像 是 永 无 尽头 ,他 到 
处 都 找 不 到 一 个 可 以 休息 的 地 方 .甚至 都 找 不 到 一 条 樵 夫 走 过 的 小 道 。 夜 幕 
降临 时 ,他 已 经 走 得 精 疲 力 竟 , 可 是 一 想到 他 的 妻子 和 孩子 们 ,他 又 竭力 地 继 
续 向 前 走 。 最 后 ,他 终于 找到 了 一 条 通 往 他 家 的 路 。 那 条 路 像 城 市 里 的 街道 
那样 笔直 而 宽阔 ,可 却 像 是 无 人 从 此 处 通行 过 ,路 的 两 边 没有 田野 ,也 没有 房 
屋 。 他 的 眼睛 有 些 肿胀 , 没 法 闭 眼 , 口 中 干 渴 , 舌 头 也 发 胀 起 来 ,他 把 舌头 仲 出 
口外 去 接触 空气 ,感受 丝 丝 的 凉意 。 这 条 没 人 走 过 的 路 上 全 是 草 , 这 些 草 多 么 
柔软 , 软 得 让 他 没 法 儿 感 觉 到 脚下 的 路 ! 

他 站 在 自己 家 门口 ,所 有 的 一 切 都 和 他 离开 时 一 模 一 样 。 当 他 推 开门 ,他 
看 到 了 女人 的 衣 裙 在 肚 动 ;他 的 妻子 还 是 那么 的 清新 甜美 , 正 从 门廊 中 走出 来 
迎接 他 。 她 走 下 了 台阶 , 脸 上 带 着 不 可 言喻 的 笑容 , 那 种 气质 简直 无 与 伦比 ! 
啊 , 她 是 多 么 的 美丽 ! Ab RAR Pt Kee 

一 一 节选 自 ( 座 溪 桥 上 》 


读 到 这 里 ,我 们 的 心中 难免 会 有 一 个 疑问 : 法 克 尔 究竟 是 死 了 还 是 逃 
跑 了 ? 


生 界 是 随机 的 一 大 数据 时 代 的 概率 统计 学 


读 到 法 克 尔 掉 入 水 中 ,拼命 挣扎 着 息 上 岸 时 ,我 们 相信 法 克 尔 真 的 逃脱 
了 。 可 是 ,怪异 的 树林 、 无 人 走 过 的 路 、 无 法 感觉 脚下 的 路 ,又 让 人 心 生 怀疑 : 
难道 这 些 是 法 克 尔 的 幻觉 ? 我 们 希望 法 克 尔 成 功 逃 脱 , 回 到 家 中 与 妻子 团圆 ， 
又 担心 一 切 都 是 法 克 尔 的 幻觉 。 法 克 尔 在 我 们 心中 仿佛 是 一 个 既 可 能 “ 生 ” 又 
可 能 “ 死 "的 人 ! 


要 测试 你 是 否 真 的 了 解 “量子 物理 ”, 只 需要 问 你 两 个 问题 。 

第 一 个 问题 : 你 知道 " 薛 定 请 的 猫 吗 ? 

(我 猜 你 会 点 头 。) 

第 二 个 问题 : 你 知道 哥本哈根 学 派 吗 ? 

〈 别 皱眉 了 ,赶快 承认 不 知道 吧 。) 

大 多 数 人 都 知道 这 只 著名 的 猫 , 却 不 知道 这 只 猫 到 底 是 怎么 来 的 , 没 错 ， 
这 只 猫 与 哥本哈根 学 派 有 莫大 的 关系 。 
哥本哈根 学 派 于 20 世纪 20 年 代 初 期 建立 ,对 量子 物理 的 创立 和 发 展 做 
出 了 很 多 重要 贡献 。 学 派 的 创始 人 是 著名 量子 物理 学 家 玻 尔 ,主要 成 员 包括 
玻 恩 , 海 森 保 等 知名 物理 学 家 。 薛 定 请 也 是 量子 物理 学 界 的 鼻祖 ,他 提出 的 
“ 薛 定 谓 方 程 ?为 量子 力学 黄 定 了 坚实 的 基础 ,至 今 折磨 着 一 代 又 一 代 的 大 学 
工科 男 。 不 过 , 薛 定 刘 并 不 是 哥本哈根 学 派 的 成 员 ,这 是 因为 他 对 哥本哈根 学 
派 的 理论 存在 质疑 。 为 了 有 的 放 矢 地 提出 自己 的 质疑 ,他 脑 洞 大 开 地 想到 了 
一 个 实验 一 一 “ 醉 定 读 的 猫 ”。 

“ 薛 定 谓 的 猫 ” 是 一 个 思想 实验 ,实验 的 过 程 是 ,把 一 只 可 怜 的 雌性 小 猫 关 
在 一 个 密室 里 ,密室 里 有 食物 也 有 毒药 ,毒药 装 在 瓶子 里 ,瓶子 上 有 一 个 锤子 ， 
锤子 由 一 个 电子 开关 控制 ,如 果 电子 开关 被 触动 ,锤子 就 会 落下 RIL AL 
子 里 的 有 毒 氰 化 物 会 毒 死 小 猫 。 问 题 是 : 小 猫 到 底 是 活着 还 是 死 了 ? 

实验 的 关键 在 于 ,电子 开关 是 否 被 触动 是 一 个 随机 发 生 的 事件 ,发 生 的 概 
率 是 50%。 这 里 的 50% 不 是 “ 抛 硬币 50% 出 现 正 面 ”这 么 简单 ,要 产生 真正 的 
随机 事件 ,需要 使 用 放射 性 元 素 。 在 微观 世界 里 ,放射 性 元 素 的 衰变 是 宇宙 都 
无 法 预知 的 随机 事件 ,一 个 真正 的 有 50 久 概率 发 生 的 随机 事件 。 控 制 电子 开 


06 


第 1 章 概率 


关 的 正 是 放射 性 元 素 , 如 果 放 射 性 元 素 发 生 衰变 , 则 开关 被 触动 ,锤子 砸 碎 毒 
瓶 , 小 猫 必 死 。 

这 个 问题 要 分 两 种 情况 讨论 。 

情况 一 : 我 们 打开 密室 观察 ,可 以 确切 地 知道 小 猫 是 生还 是 死 。 如 果 放 
射 性 元 素 发 生 了 衰变 ,那么 可 怜 的 小 猫 一 定 已 经 中 毒 身亡 ;如 果 没 发 生 衰变 ， 
那么 可 爱 的 小 猫 依然 活着 。 

情况 二 : 我 们 不 打开 密室 ,由 于 放射 性 元 素 的 衰变 完全 无 法 预测 ,所 以 小 
猫 既 可 能 生 , 也 可 能 死 ,我 们 只 能 认为 小 猫 处 于 “ 生 与 死 ” 的 亚 加 状态 ! 

用 量子 物理 的 语言 来 说 , 当 我 们 没有 观察 小 猫 时 ,小 猫 是 被 “概率 云 " 包 庄 
的 , 生 与 死 两 种 状态 互相 看 加 ,形成 了 一 个 * 秋 加 态 ”, 当 我 们 进入 密室 观察 小 
猫 时 ， 概 率 云 " 瞬 间 塌 缩 了 ,于 是 我 们 只 能 观察 到 某 一 种 状态 的 小 猫 。 

一 只 "上 既 生 又 死 ?的 猫 ? 这 明显 违背 常识 。 薛 定 请 把 微观 世界 的 簿 加 状态 
平行 的 移植 到 宏观 世界 中 ,以 此 质疑 量子 物理 的 “完备 性 ”, 也 就 是 说 ,量子 物 
理 中 的 “ 释 加 态 ” 在 宏观 世界 中 不 成 立 。 

量子 物理 学 家 玻 尔 曾 说 :“ 谁 要 是 第 一 次 听 到 量子 理论 时 没有 感到 困惑 ， 
那 他 一 定 没 听 懂 。” 亲 爱 的 读者 朋友 ,你 是 听 懂 了 还 是 没 听 懂 呢 ? 

我 们 活 在 当下 ,感知 当下 ,环顾 四 周 , 仿 佛 一 切 都 是 确定 无 疑 的 。 可 是 ,此 
时 此 刻 , 还 有 很 多 人 ,很 多 事 是 你 感知 不 到 的 ,对 你 而 言 , 它 们 是 “不 确定 的 ”。 
鹰 溪 桥 上 的 法 克 尔 和 薛 定 请 的 猫 到 底 是 生还 是 死 ? 这 不 再 是 一 个 非 此 即 彼 的 
问题 ,在 谜底 揭 开 之 前 ,它们 既 可 能 生 ,也 可 能 死 ,这 是 一 个 概率 问题 ,专门 研 
究 概 率 问 题 的 学 科 就 是 一 一 概率 论 。 

最 后 ,我 要 公布 4 鹰 溪 桥 上 》 的 结局 了 。 


TT 


他 伸 开 双 辟 冲 过 去 , 正 要 和 那 美丽 的 女人 拥抱 时 ,他 感觉 到 自己 的 颈 后 遭 
到 了 重重 的 一 击 , 随 着 一 声 大 炮 的 砂 鸣 ,他 的 四 周亮 起 了 炫目 的 白光 一 一 接 
着 ,一 切 都 陷入 了 黑暗 和 静寂 。 
法 克 尔 死 了 ,他 那 折 断 了 颈 部 的 尸体 正 是 在 腐 溪 桥 后 面 的 模 木 下 轻 轻 地 
摆动 。 
— FACE RRL) 
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12 随机 事件 : 翻 飞 的 硬币 


我 的 家 乡 邻 近 长 白山 , 那 一 年 ,我 终于 登 上 了 长 白山 , 见 到 了 传说 中 的 天 
池 。 站 在 山顶 向 下 望 ,天 池 宛 若 一 面 蓝 色 的 魔 镜 , 静 如 止 水 , 莫 过 如 此 。 上 山 
之 前 ,很 多 人 说 , 想 看 到 天 池 要 靠 运气 , 没 多 一 会 儿 , 我 就 明白 了 此 言 不 虚 。 刚 
刚 还 晴空 万 里 .阳光 普照 ,转瞬 间 就 是 大 雾 弥 漫 ,我 和 父亲 母亲 只 能 手 拉 着 手 
站 在 原 地 ,生怕 在 白 茫茫 的 雾气 中 走失 。 再 过 一 会 儿 , 雾 气 缓 缓 消散 ,正当 大 
家 拿 出 相机 要 继续 拍照 时 ,乌云 袭 来 ,风雨 大 作 , 我 们 纷纷 披 上 雨衣 ,站 在 寒 风 
中 瑟瑟 发 抖 。 那 是 我 第 一 次 感到 大 自然 的 风云 变幻。 
自古 至 今 ,人 们 都 在 试图 回答 一 个 哲学 命题 : 我 们 生活 在 一 个 确定 的 世界 
还 是 不 确定 的 世界 ? 我 们 很 确信 ,苹果 熟 透 了 ,会 从 树 上 掉 下 来 ,但 我 们 又 不 能 确 
定 , 抛 起 的 硬币 落 到 地 上 时 , 哪 一 面 会 朝 上 。 对 此 ,哲学 领域 有 两 种 不 同 的 论断 。 

决定 论 : 它 是 指 自然 界 和 人 类 社会 普遍 存在 着 客观 规律 和 必然 的 因果 联 
系 , 也 就 是 说 ,如 果 我 们 能 够 发 现 和 理解 所 有 的 客观 规律 和 因果 联系 ,自然 界 
和 人 类 社会 的 任何 变化 都 是 可 以 预知 的 ,我 们 之 所 以 还 做 不 到 ,是 因为 我 们 对 
客观 规律 的 认识 还 不 够 。 

非 决 定论 : 与 决定 论 相对 , 非 决 定论 否认 自然 界 和 人 类 社会 普遍 存在 着 
客观 规律 和 必然 的 因果 联系 , 认为 事物 的 发 展 变化 是 没有 客观 规律 的 ,是 由 事 
物 内 在 的 “自由 意志 ”决定 的 ,也 就 是 说 ,人 们 可 以 自由 支配 自己 的 行为 , 却 无 
法 预言 客观 事物 的 发 展 变化 和 其 他 人 的 行为 。 

我 们 似乎 更 容易 认同 非 决 定论 ,毕竟 世界 如 此 纷繁 复杂 ,我 们 只 能 控制 自 
己 ,很 难 预知 未 来 。 但 我 们 不 能 轻易 否定 决定 论 , 抛 开 两 个 论断 的 对 错 之 争 ， 
决定 论 为 我 们 认识 世界 提供 了 新 的 思路 。 下 面 ,我 们 就 来 做 一 个 “ 抛 硬币 ”的 


思想 实验 : 抛 硬币 


抛 硬币 是 大 家 十 分 熟悉 的 小 把 戏 , 足 球 比赛 前 ,裁判 会 用 抛 硬币 的 方式 让 
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双方 挑 边 , 大 家 似乎 默认 抛 出 的 硬币 落 到 手 上 或 地 上 时 ,正面 和 反面 朝 上 的 可 
能 性 是 相同 的 。 但 是 ,决定 论 的 支持 者 们 对 此 表示 怀疑 ,他 们 提出 了 如 下 的 思 

实验 1.0 

假定 有 一 台 超 高 速 摄像 机 和 一 台 超 级 力学 计算 器 ,摄像 机 自 带 摇 劈 ,可 以 
跟 拍 动态 画面 ,并 对 拍摄 到 的 画面 进行 实时 分 析 ,分辨 画面 中 的 物体 ,提取 物 
体 的 运动 参数 ,这 些 参数 又 被 实时 的 传输 到 力学 计算 器 ,力学 计算 器 可 以 根据 
此 前 的 数据 计算 出 物体 下 一 时 刻 的 运动 状态 。 

我 们 用 超 高 速 摄像 机 对 准 手 上 的 硬币 ,然后 , 抛 起 硬币 ! 超 高 速 摄像 机 与 
硬币 一 起 向 上 升 ,又 一 起 向 下 降 , 最 后 ,在 硬币 即将 落 到 手 上 时 ,力学 计算 器 输 
出 了 计算 结果 : 正面 向 上 。 你 展开 手掌 ,露出 了 硬币 ,果然 是 正面 。 

我 们 在 实验 中 加 入 了 一 位 超级 观察 员 一 一 由 超 高 速 摄像 机 和 超级 力学 计 
算 器 组 合 而 成 。 只 要 你 不 是 魔术 师 , 也 不 刻意 作弊 ,在 硬币 即将 落 到 手 上 时 ， 
超级 观察 员 一 定 可 以 准确 地 告诉 你 硬币 的 哪 一 面向 上 。 请 问 , 抛 硬币 的 结果 
是 随机 的 吗 ? 

我 的 回答 依然 是 : 随机 的 。 原 因 是 ,硬币 在 运动 过 程 中 ,可 能 受到 各 种 因 
素 的 干扰 ,力学 计算 器 只 能 做 出 短 时 间 的 预测 ,所 以 ,超级 观察 员 只 能 在 硬币 
即将 落 到 手 上 时 ,才能 计算 出 硬币 哪 一 面向 上 ,因此 ,在 硬币 抛 起 时 ,即使 是 超 
级 观察 员 也 无 法 预测 硬币 的 哪 一 面向 上 。 为 了 反 驶 这 两 点 ,我 们 将 思想 实验 
升级 为 2.0 版 。 

实验 2.0 

在 实验 1.0 的 基础 上 ,我 们 加 入 如 下 条 件 : 一 是 每 次 硬币 抛掷 的 周围 环境 
都 一 样 ;二 是 你 的 手 升级 为 超级 机 器 手 ,内 置 力学 传感器 ,你 抛 起 硬币 时 对 硬 
币 施加 的 力 全 部 会 被 记录 在 传感器 的 芯片 中 ,同时 ,超级 机 器 手 还 可 以 自由 设 
定 抛 硬 币 使 用 的 力 ,也 就 是 说 ,你 可 以 复 现 曾经 出 现 过 的 硬币 抛掷 过 程 。 再 次 
请 问 : 抛 硬币 的 结果 是 随机 的 吗 ? 

这 时 ,我 有 些 语 塞 了 ,在 这 样 的 条 件 下 ,如果 我 们 利用 超级 机 器 手 重复 此 
前 的 某 一 次 抛掷 , 那 就 意味 着 ,在 硬币 刚刚 抛 出 时 ,我 们 就 知道 了 结果 ,这 时 ， 
抛 硬 币 的 结果 是 确定 的 ! 如 果 我 们 利用 这 套装 置 不 断 进 行 抛 硬 币 练习 , 就 会 
收集 越 来 越 多 的 硬币 抛 搓 结 果 , 然后 ,这 只 超级 机 器 手 就 会 成 为 一 个 开关 , 它 
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既 可 以 再 现 过 去 的 抛掷 过 程 ,准确 预 言 抛 掷 结果 ,也 可 以 进行 一 次 新 的 抛掷 ， 
让 结果 随机 出 现 。 这 只 超级 机 器 手掌 控 着 一 切 ,仿佛 "造物主 "一样! 

决定 论 的 极限 表达 是 “造物 主 ”, 造 物 主 知晓 一 切 , 造物主 决定 一 切 ,造物 
主 预知 一 切 。 这 种 宗教 化 的 解释 自然 不 在 我 们 的 讨论 范围 内 ,但 “决定 论 ” 赋 
予 我 们 一 个 很 有 价值 的 思想 : 不 断 探 索 自 然 , 不 断 寻 找 客 观 规律 。 试 想 ,在 牛 
顿 发现 万 有 引力 之 前 ,已 有 千 千 万 万 个 苹果 落 到 了 地 上 ,难道 我 们 该 认为 ,这 
些 苹 果 拥 有 “自由 意志 ”, 竟 然 不 约 而 同 地 冲 向 地 面 吗 ? 这 个 看 似 必然 发 生 的 
事件 , 正 是 万 有 引力 定律 引起 的 ,对 这 个 确定 性 事件 的 解释 ,让 我 们 对 大 自然 
的 认识 更 加 深刻 ,也 正 是 “决定 论 ” 指 引 我 们 不 断 探索 下 去 。 


度量 随机 事件 


我 们 从 思想 实验 中 跳 脱 出 来 , 回 到 现实 世界 。 在 现实 世界 中 ,每 时 每 刻 都 
在 发 生 各 种 各 样 的 事情 ,有 的 事 像 苹果 落地 一 样 ,有 确 间 无 疑 的 结果 ,而 有 的 
事 却 像 抛 硬币 一 样 ,无 法 预知 结果 。 数 学 家 们 既 不 是 决定 论 者 ,也 不 是 非 决 定 
论 者 ,他 们 从 数学 的 角度 审视 万 事 万 物 , 概 率 论 由 此 而 来 。 

抽象 地 讲 , 概 率 论 站 在 无 知 者 和 造物 主 之 间 审 视 世 界 , 力 图 从 现实 世界 中 
发 现 客观 规律 ,帮助 我 们 更 深刻 的 认识 现实 世界 。 

在 概率 论 的 世界 里 , 抛 硬 币 、 掷 从 子 等 被 统称 为 随机 试验 ,每 一 个 随机 试 
验 都 会 有 一 个 或 多 个 可 能 的 结果 ,一 个 结果 或 某 些 结果 的 组 合 称 为 随机 事件 。 

举例 来 说 , 抛 硬币 是 一 个 随机 试验 , 抛 硬币 可 能 的 结果 有 两 个 : 正面 和 反 
面 。 我们 用 一 个 大 写字 母 来 代表 随机 事件 ,那么 ,我 们 可 以 得 到 如 下 的 四 个 随 
机 事件 。 

A: 抛 硬币 出 现 正面 

B: 抛 硬币 出 现 反 面 

C: 抛 硬币 出 现 正面 或 反面 

D: 抛 硬币 既 不 出 现 正面 也 不 出 现 反面 

随机 事件 C 和 随机 事件 D 往往 会 给 初学 概率 论 的 人 带 来 困扰 ,随机 事件 
C 根本 就 不 是 “随机 ?事件 ,分明 就 是 一 定 会 发 生 的 确定 性 事件 ,随机 事件 D E 
相反 ,是 一 定 不 会 发 生 的 事件 ,自然 也 不 是 “随机 ?事件 。 概 率 论 是 一 门 完备 的 
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科学 , 它 要 涵盖 所 有 的 事件 ,而 不 是 只 研究 那些 “随机 ”事件 ,为 此 ,我 们 需要 一 
个 度量 随机 事件 的 工具 一 一 概率 。 
概率 ,用 于 度量 随机 事件 发 生 的 可 能 性 ,是 个 定量 指标 ,用 大 写字 母 POR 
表示 。 例 如 ,随机 事件 A 发 生 的 概率 是 50%% ,可 以 写成 ， 
P(A) = 50% 


概率 有 以 下 两 个 特性 : 

(1) 概率 是 非 负 的 , 即 对 于 任意 随机 事件 A, PCA 0; 

D 对 于 任 一 随机 试验 ,我 们 假定 所 有 可 能 的 结果 有 种 (mn 二 0) ,分别 记 
为 Ars Azti sAn ,如果 这 些 结 果 两 两 之 间 都 不 可 能 同时 出 现 , 则 P(A) 十 
P(A:) 十 … 十 P(A,) 一 1。 

事实 上 ,在 概率 论 所 描述 的 数学 世界 中 ,所 有 的 事件 都 是 随机 事件 ,如 果 
一 个 事件 不 可 能 发 生 , 我 们 认为 它 发 生 的 概率 是 0, 如 果 一 个 事件 必然 发 生 , 我 
们 认为 它 发 生 的 概率 是 1。 下 面 我 们 举 两 个 有 争议 的 例子 。 

随机 事件 A: 公鸡 下 蛋 。 

这 违背 常识 ,不 可 能 发 生 , P(A) 二 0。 

随机 事件 B: 人 终 有 一 死 。 

这 是 个 客观 事实 ,必然 发 生 ,P(B) 王 1。 

就 大 多 数 人 的 认 知 ,这 两 个 概率 是 正确 的 。 可 是 ,生物 学 家 或 许 会 质疑 这 
两 个 概率 ,甚至 罗列 一 长 串 的 生物 新 技术 来 反驳 这 两 个 概率 。 没 错 , 我 承认 这 
两 个 概率 可 能 是 错误 的 ,正如 崔健 唱 的 那样 :“ 不 是 我 不 明白 ,这 世界 变化 
快 ." 世 界 在 变化 ,概率 也 在 变化 ,唯一 不 变 的 是 : 所 有 的 事件 都 是 随机 事件 。 


13 条 件 概率 : 门 后 的 老 山 羊 与 豪 车 


一 个 因 犯 站 在 法 官 面前 听 候 判决 。 法 官 严 肃 地 说 :“ 我 不 得 不 做 出 最 严 
厉 . 最 残酷 的 判决 ,这 就 是 绞刑 。 这 个 严酷 的 刑罚 必须 执行 ,不 可 更 改 。 除 此 
之 外 ,我 唯一 的 决定 权 是 安排 你 的 行刑 日 期 ,对 此 ,我 一 直 在 两 个 方案 之 间 
“最 简单 、 最 直接 的 方案 是 判决 即刻 生效 ,马上 执行 ,但 这 个 判决 对 你 太 仁 
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慈 了 ,你 完全 没有 感受 到 惊恐 害怕 。 因 此 ,我 现在 决定 : 在 下 周 7 天 中 的 某 一 
天 ,我 会 在 日 出 时 安排 执行 绞刑 。 我 绝 不 会 提前 告诉 任何 人 ,我 会 在 哪 一 天 安 
排 绞 刑 , 所 以 ,我 保证 你 不 可 能 事先 知道 , 自己 将 在 哪 一 天 被 绞 死 。 每 个 夜晚 ， 
你 都 将 在 担 惊 受 怕 中 入 睡 ,这 是 对 你 最 大 的 惩罚 。” 

法 官 宣判 完 后 ,囚犯 绝望 了 ,他 转 过 头 去 ,居然 看 到 他 的 律师 露出 了 微笑 。 
走出 法 庭 后 ,律师 对 因 犯 说 :“ 他 们 不 能 绞 死 你 了 ,” 他 解释 道 ,“ 按 照 法 官 的 安 
排 ,下 周 7 天 中 的 某 一 天 ,他 会 在 日 出 时 分 执行 绞刑 ,而 且 他 们 保证 不 会 提前 
让 你 知道 。 因 此 ,他 们 不 能 在 星期 六 绞 死 你 ,因为 星期 六 是 一 周 的 最 后 一 天 ， 
如 果 星期 五 的 早晨 ,你 还 没有 被 绞 死 ,你 就 知道 了 行刑 日 期 必然 是 星期 入。 这 
与 法 官 的 安排 是 矛盾 的 ,因为 他 的 计划 是 不 让 你 知道 行刑 日 期 。 

“所 以 ,他 们 最 晚 只 能 在 星期 五 绞 死 你 ,这 一 点 没 问 题 吧 。” 因 犯 对 此 表示 
赞同 。“ 既 然 星 期 六 已 经 排除 了 ,星期 五 就 成 了 可 以 绞 死 你 的 最 后 一 天 ,按照 
同样 的 逻辑 ,如 果 你 星期 四 早上 还 没 被 绞 死 ,那么 你 一 定 会 在 星期 五 被 绞 死 ， 
这 又 与 法 官 的 安排 矛盾 。 你 明白 了 吗 ? 依照 同样 的 逻辑 ,我 们 还 可 以 排除 星 
期 四 .星期 三 ,我 们 可 以 排除 每 一 天 ! 法 官 把 自己 套 住 了 ! 这 个 判决 不 可 能 
执行 1” 


H 


犯 心情 愉快 地 度 过 了 星期 一 ,星期 二 早晨 ,他 从 美梦 中 醒 来 ,然后 被 押 
赴 刑 场 , 绞 死 了 。 

这 是 一 个 经 典 的 悖 论 一 一 意外 绞刑 悖 论 , 它 还 有 很 多 种 表现 形式 ,比如 老 
师 突袭 考试 .紧急 消 防 演习 等 。 正 如 律师 所 言 ,如 果 法 官 严格 的 执行 判决 ,办 
犯 将 不 会 被 绞 死 ,然而 ,法 官 在 公布 判决 结果 时 已 经 下 定 决心 : 绞刑 必须 执 
行 ,只 有 在 这 个 前 提 下 ,才能 体现 出 悖 论 的 思辩 色彩 。 哲 学 家 迈克 尔 ， 斯 克 里 
文 这 样 评 论 意外 绞刑 悖 论 :“ 逮 辑 的 力量 遭 到 事实 的 否决 ,我 觉得 这 正 是 此 悖 
论 的 迷人 之 处 。 可 怜 的 逻辑 学 家 念 着 过 去 屡试不爽 的 咒语 ,但 事实 上 这 个 怪 
物 听 不 懂 咒 语 ,执意 前 行 . 

我 们 用 概率 论 分 析 一 下 这 个 悖 论 。 在 法 官 说 到 ,要 在 一 周 7 天 中 的 某 一 
天 处 死因 犯 时 ,囚犯 在 一 周 7 天 的 任何 一 天 被 执行 绞刑 的 概率 都 是 V7, 而 当 
法 官 说 到 ,囚犯 不 会 知道 绞刑 在 哪 一 天 执行 时 ,概率 发 生 了 变化 , 周 六 执行 绞 
刑 的 概率 原本 是 V7, 此 时 却 降 为 了 0. 因 为 周 六 执行 绞刑 违背 了 “ 因 犯 不 知道 
绞刑 在 哪 一 天 执行 ”的 条 件 。 一 个 前 提 条 件 , 改 变 了 事件 发 生 的 概率 ,这 就 
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是 一 一 条 件 概率 。 


守门 问题 


“三 门 间 题 ”是 一 个 知名 的 概率 问题 ,这 个 问题 刚好 用 到 了 “条 件 概 率 ”, 我 
们 一 起 来 看 看 ,条 件 概率 是 如 何 帮 助 参赛 者 提高 获胜 机 会 的 。 

蒙 提 雷 尔 是 一 个 美国 电视 节目 的 主持 人 ,他 曾 主 持 过 一 个 有 趣 的 游戏 节 
, 叫 作 *Let's make a deal”。 节 目 中 有 三 扇 关 闭 的 大 门 ,其 中 一 扇 门 的 后 边 
是 一 辆 豪 车 ,另外 两 扇 门 的 后 边 各 藏 着 一 只 老 山 羊 。 如 果 参 赛 者 最 终 选 定 的 
] 的 背后 是 豪 车 ,参赛 者 可 以 开 着 豪 车 回 家 , 如果 是 老 山羊 ,参赛 者 将 空手 而 
导 。 节 目 开 始 后 , 蒙 提 霍 尔 让 参赛 者 从 三 扇 关 闭 的 门 中 随便 挑选 一 扇 ,然后 ， 
蒙 提 堆 尔 会 从 剩 下 的 两 扇 门 中 打开 一 扇 , 门 后 定 会 出 现 一 只 老 山 羊 , 因 为 , 蒙 
提 霍 尔 知道 豪 车 藏 在 哪 扇 门 的 后 边 。 此 时 , 蒙 提 霍 尔 会 给 参赛 者 一 个 改选 的 
机 会 ,如 果 你 是 参赛 者 ,你 会 改选 另 一 扇 门 还 是 坚持 最 初 的 选择 ? 

我 猜 你 此 刻 在 想 : 蒙 提 霍 尔 知道 豪 车 在 哪 ,我 可 不 知道 ,所 以 选 哪 扇 门 都 
一 样 嘛 , 改 或 者 不 改 是 一 样 的 , 非 要 我 决定 改 还 是 不 改 的 话 , 抛 硬币 好 了 。 

节目 中 的 参赛 者 也 是 这 么 想 的 ,所 以 他 们 有 的 坚持 不 改 , 有 的 摇摆 不 定之 
后 改选 了 另 一 扇 门 。 这 个 游戏 还 包含 男 一 层 心理 层面 的 因素 , 如果 参赛 者 不 
改变 自己 最 初 的 选择 ,即使 他 们 没有 得 到 豪 车 ,也 会 用 “坚持 自我 "来 安慰 自 
己 , 而 如 果 他 们 改选 男 一 扇 门 却 落 了 个 空 , 则 会 忻 恼 不 已 ,因为 他 们 把 到 手 的 
豪 车 拱手 送 了 出 去 ! 看 起 来 ,不 改变 自己 最 初 的 选择 是 对 的 。“ 不 变 初 囊 ”“ 坚 
持 自我 ,多么 励志 的 想法 ! 

然而 ,科学 不 相信 励志 。 下 面 ,我 就 来 告诉 你 ,为 什么 “坚持 自我 "是 错 
误 的 。 

这 个 问题 中 的 条 件 有 些 复杂 ,为 了 由 浅 入 深 的 展开 分 析 , 我 们 对 前 提 条 件 
做 一 个 简化 : 假设 主持 人 不 知道 哪 扇 门 后 边 是 豪 车 ,也 就 是 说 ,在 参赛 者 选择 
完 一 扇 门 后 ,主持 人 在 剩 下 的 两 扇 门 里 随机 挑选 一 扇 。 此 外 ,为 了 方便 起 见 ， 
我 们 把 两 只 老 山 羊 分 别 记 为 公 山 羊 和 母 山 羊 , 很 显然 ,这 样 不 会 影响 计算 
结果 。 

在 这 样 的 前 提 条 件 下 ,我 们 把 所 有 可 能 的 情况 列 出 来 ,一 共有 6 种 可 能 的 
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情况 , 即 6 个 随机 事件 ,如 表 1-1 所 示 。 


表 1-1 “三 门 问题 "的 所 有 可 能 情况 


随机 事件 | 参赛 者 第 一 次 选择 的 门 | ”主持 人 选择 的 门 “| 剩 下 的 最 后 一 道 站 
A Aue aes 豪 车 
B Ae Z 车 母 山羊 
č 母 山羊 Aue 豪 车 
D 母 山羊 豪 车 Ae 
E \ 羊 
和 


现实 中 ,主持 人 并 非 随机 选择 了 一 扇 门 ,他 只 会 选择 公 山 羊 或 母 山羊 面前 
的 那 扇 门 ,所 以 ,随机 事件 B 和 随机 事件 D 不 可 能 发 生 ! 也 就 是 说 , 当 参 赛 者 
第 一 次 选择 了 公 山 羊 或 者 母 山羊 时 ,主持 人 根本 没有 选择 的 余地 ,他 必须 选择 
另 一 只 山羊 , 留 下 豪 车 ,这 时 ,参赛 者 应 该 改变 初衷 ,选择 另 一 扇 门 ; 当 参赛 者 
第 一 次 选择 了 豪 车 时 ,主持 人 一 定 会 留 下 一 只 老 山 羊 , 这 时 参赛 者 不 应 该 改变 
WR, 

因此 ,在 下 面 三 种 情况 下 ,参赛 者 会 获得 豪 车 。 

参赛 者 选择 公 山 羊 坟 主持 人 选择 母 山羊 > 参 赛 者 改选 男 一 扇 门 二 参赛 者 
获得 豪 车 

参赛 者 选择 母 山 羊 二 主持 人 选择 公 山 羊 全 参赛 者 改选 另 一 扇 门 全 参赛 者 
获得 豪 车 

参赛 者 选择 豪 车 志 主持 人 选择 母 山羊 或 公 山 羊 志 参 赛 者 不 改变 选择 志 参 
赛 者 获得 豪 车 

这 三 种 情况 包含 的 一 个 重要 信息 是 : 只 要 知道 了 参赛 者 第 一 次 选择 的 门 
后 是 什么 ,就 知道 了 参赛 者 是 否 应 该 改选 另 一 扇 门 。 下 面 ,我 们 来 计算 参赛 者 
第 一 次 选择 的 三 种 可 能 的 结果 出 现 的 概率 。 

RE: 

随机 事件 A : 参赛 者 第 一 次 选择 公 山 羊 ， 

随机 事件 A: 参赛 者 第 一 次 选择 母 山羊 ; 

随机 事件 A: 参赛 者 第 一 次 选择 豪 车 。 

我 们 知道 ,参赛 者 第 一 次 的 选择 是 完全 随机 的 ,因此 : 
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P(A1) = P(A:) = P(As) 
FFA: 
P(A.) + P(Az) + P(A) = 1 


此 可 以 得 到 : 
P(A)) = P(A2) = P(A3) = Y 3 

只 有 当 随 机 事件 As 发 生 时 ,参赛 者 才 应 该 坚持 自己 的 选择 ,而 随机 事件 
A; 发 生 的 概率 只 有 1 3, 所以, 我们 得 到 的 结论 是 : 改选 另 一 扇 门 ,有 2 3 的 可 
能 得 到 豪 车 ,有 反之, 则 只 有 1 3 的 可 能 得 到 豪 车 。 
重新 审视 分 析 过 程 ,我 们 会 发 现 ,这 个 游戏 有 趣 的 一 点 就 在 于 : 在 你 随机 
选择 一 扇 门 之 后 ,主持 人 为 你 去 掉 了 一 个 错误 答案 。 有 了 这 个 前 提 条 件 , 参 赛 
者 获胜 的 概率 提高 了 ,这 就 是 “条 件 概率 ”的 神奇 之 处 ! 


条 件 概率 


条 件 概 率 ,是 针对 两 个 或 两 个 以 上 的 随机 事件 提出 的 概念 ,我 们 设 定 任意 
两 个 随机 事件 为 A、B, 那 么 ,在 A 已 经 发 生 的 前 提 下 ,B 发 生 的 概率 就 称 为 条 
件 概率 , 记 为 PEIA). 

概率 具有 非 负 性 ,条 件 概 率 是 概率 的 一 个 类 别 , 因 此 同样 具有 非 负 性 , 即 
对 于 任意 随机 事件 A 和 随机 事件 B,P(B|A) 宇 0。 

要 研究 两 个 随机 事件 之 间 的 关系 ,首先 要 弄 清楚 ,两 个 随机 事件 的 概率 之 
间 可 以 进行 哪些 数学 运算 ,下 面 我 们 来 介绍 概率 的 加 减 乘除 法 则 。 

首先 ,我 们 要 定义 两 个 概念 : 

和 事件 : 随机 事件 A U B 称 为 A 和 B 的 和 事件 , 它 表示 随机 事件 A 或 随 
机 事件 B 中 至 少 有 一 个 发 生 ; 
积 事 件 : 随机 事件 A N B 称 为 A MB 的 积 事件 , 它 表示 随机 事件 A 和 随 
机 事件 B 同时 发 生 。 通 常 地 ,我 们 把 AmB 简写 为 AB 。 

其 次 ,我 们 来 学 习 概率 的 加 法 和 乘法 。 

概率 加 法 : 对 任意 两 个 随机 事件 A MB. A 

P(A U B) = P(A) + P(B) — P(AB) 
概率 乘法 : 对 任意 随机 事件 B 和 满足 P(A)> 0 的 随机 事件 A .有 
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P(AB) = P(B | A) + P(A) 

概率 的 加 法 和 乘法 就 是 概率 论 中 的 四 则 运算 ,很 多 概率 问题 的 计算 都 需 
要 使 用 这 两 种 运算 ,本 书后 边 的 内 容 也 会 反复 使 用 它们 。 这 里 需要 说 明 的 是 ， 
概率 加 法 和 乘法 的 证 明 不 在 本 书 的 讨论 范围 内 ,我 们 把 它们 当 作 数 学 中 的 四 
则 运算 一 样 使 用 就 可 以 了 。 

细心 的 读者 会 发 现 ,概率 乘法 中 出 现 了 条 件 概 率 P(B1A) ,事实 上 ,概率 
乘法 的 另 一 种 表达 方式 正 是 条 件 概率 的 数学 定义 。 

设 随机 事件 A MB. WE PAS 0, 则 

P(B | A) = P(ABY P(A) 

定义 为 随机 事件 A 发 生 的 前 提 下 随机 事件 B 发 生 的 条 件 概率 。 

关于 条 件 概率 ,我 们 要 讨论 的 最 后 一 个 问题 是 : 对 于 某 个 随机 事件 B 和 
任意 随机 事件 A,P(BIA) 和 P(B) 之 间 的 大 小 关系 是 怎样 的 ? 

这 个 问题 会 让 人 在 一 瞬间 产生 两 种 截然 相反 的 想法 。 有 些 人 在 想 : 已 
知 条 件 越 多 ,事情 发 生 的 概率 应 该 越 大 ,所 以 PC B| ADS P(B); 另 一 些 人 在 
想 : 已 知 条 件 越 多 ,对 事件 发 生 的 限制 也 越 多 ,事件 发 生 的 概率 也 越 小 ,所 以 
P(BIA)< P(B). 

我 们 用 一 个 生活 中 的 事例 来 解释 一 下 。 

2015 年 ,北京 空气 质量 达标 186 天 , 占 全 年 的 51% 。 假 定 今天 是 2016 年 
1 月 1 日 ,如 果 我 让 你 预测 一 下 3 月 1 日 会 是 雾 才 天 还 是 晴天 ,你 会 怎么 回答 ? 
谁 都 不 可 能 提前 两 个 月 预测 一 天 的 雾 才 情况 ,所 以 ,你 只 能 回答 51% ,看 起 来 ， 
这 跟 抛 硬币 没什么 区 别 。 

时 光 如 箭 , 转 眼 到 了 2 月 29 日 。 假 如 ,今天 白天 狂风 大 作 , 夜幕 降临 时 ， 
风 停 了 ,你 一 定 会 感到 欣慰 :“ 明 天 肯定 是 好 天 气 ! 又 如 ,今天 雾 考 压 城 ,直到 
夜里 仍 不 见 好 转 , 你 会 在 睡 前 默默 地 给 全 家 人 准备 好 口 置 ,你 知道 ,明天 肯定 
BEZEK. 

我 们 用 概率 语言 重新 描述 上 面 的 事例 。 

随机 事件 B: 2016 年 3 月 1 日 ,北京 城 是 个 雾 才 天 。 

随机 事件 Ai 2016 年 2 月 29 日 ,北京 白天 刊 大 风 , 晚 上风 停 了 。 

随机 事件 Az: 2016 年 2 月 29 日 .北京 全 天 雾 者 严重 。 

根据 常识 ,我 们 得 到 了 下 面 的 结论 : 
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P(B | Ai) < P(B) 
P(B | A2) > P(B) 
所 以 说 ,P(B1A) 和 P(B) 没 有 确定 不 变 的 大 小 关系 ,前 提 条 件 对 随机 事 
件 产生 的 影响 无 法 预测 ! 


14 独立 事件 : 反复 抛 起 的 硬币 


有 这 样 一 个 谜 题 : 小 明 一 家 四 口 正在 沙滩 上 享受 假期 ,这 时 ,小 明和 妹妹 
为 了 一 个 美丽 的 贝克 和 争执 起 来 ,他 们 俩 都 想得到 贝壳 , 谁 也 不 让 谁 ,只 好 找 来 
父亲 。 父 杀 没 法 说 服 这 对 兄妹 ,只 能 用 一 种 “公平 的 方式 ”来 决定 贝壳 归 
谁 一 一 抛 硬 币 。 可 是 ,父亲 手 上 没有 硬币 ,只 有 几 个 汽水 瓶 瓶 盖 , 父亲 想 要 用 
瓶 盖 代 闪 硬币 ,可 是 , 抛 瓶 盖 出 现 正面 和 反面 的 概率 未 必 相 同 。 请 问 ,父亲 该 
怎么 办 呢 ? 

或 许 你 已 经 知道 答案 了 , 如 果 你 还 没 想 明白 , 先 把 这 个 小 谜 题 放 在 一 边 ， 
我 们 一 起 来 学 习 概 率 论 中 的 一 个 很 独特 的 概念 一 一 独立 事件 。 


独立 事件 的 含义 


通俗 地 讲 , 彼 此 没有 任何 关联 的 事件 称 为 独立 事件 。 比 如 ,你 和 我 各 自 抛 
一 枚 硬币 ,你 抛 硬币 出 现 正面 和 我 抛 硬币 出 现 正面 是 两 个 毫 不 相干 的 随机 事 
件 , 此 时 ,我 们 就 称 这 两 个 事件 彼此 独立 , 互 为 独立 事件 。 

独立 事件 看 起 来 很 容易 理解 ,实际 上 ,人 们 常常 搞 不 清楚 它 的 含义 。 下 
面 ,我 们 就 来 讨论 一 下 独立 事件 真正 的 含义 。 

某 日 ,一 架 小 型 客机 在 靠近 机 场 的 居民 区 输 落 ,所 幸 没 有 造成 人 员 伤 亡 。 
记者 们 第 一 时 间 赶 到 事故 现场 ,采访 了 机 场 总 经 理 。 为 了 安抚 大 家 的 情绪 ,也 
为 了 保全 机 场 的 声誉 ,机 场 总 经 理 这 样 说 道 :“ 从 统计 学 上 讲 , 人 们 应 该 感到 
更 放心 ,因为 再 次 发 生 类 似 事故 的 可 能 性 相 比 此 前 大 大 减 小 了 。” 

毫 无 疑问 ,这 段 采访 应 该 入 选 “ 史 上 最 差 危 机 公关 ”的 榜 单 。 历 史上 有 很 
多 血淋淋 的 事件 都 可 以 反 驶 这 种 轧 夸 至极 的 说 法 。 纽 约 时 间 2001 年 9 H11 
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日 早 8 时 37 分 ,美国 航空 公司 11 次 航班 被 劫持 ,8 时 46 分 ,这 架 波音 767 K 
机 以 490 千 米 / 小 时 的 速度 撞 向 世贸 中 心 北 楼 。 要 知道 ,在 此 之 前 ,美国 发 生 
飞机 撞 楼 事件 的 概率 仅 为 0. 005% ,如 果 按 照 那 位 机 场 总 经 理 的 说 法 ,世贸 中 
心 第 一 次 被 撞 之 后 ,几乎 不 可 能 再 发 生 类 似 事件 了 。 而 事实 是 ,恐怖 分 子 随后 
驾驶 另外 两 架 波音 飞机 撞击 了 世贸 中 心 南 楼 和 五 角 大 楼 。 除 此 以 外 ,我 们 还 
能 列举 出 很 多 “ 祸 不 单行 "的 事实 。 面 对 恐怖 袭击 或 者 意外 事故 ,我 们 要 做 的 
不 是 拿 概率 理论 来 蒙骗 大 众 ,而 是 应 该 找 出 事故 原因 ,避免 类 似 的 惨剧 再 次 
发 生 。 

那么 ,这 位 机 场 总 经 理 到 底 错 在 哪儿 呢 ? 他 混 活 了 两 件 事 : 一 个 随机 事 
件 发 生 两 次 和 一 个 随机 事件 再 次 发 生 。 以 飞机 失事 为 例 , 设 

随机 事件 A: 该 机 场 飞机 失事 

根据 该 机 场 的 营运 历史 , PCA) =0. 01% 

我 们 假设 两 次 不 同 的 事故 之 间 是 互相 独立 的 ,那么 ,该 机 场 发 生 两 次 飞机 
失事 事故 的 概率 是 ， 


P(A) + P(A) = 0.000 001% 

这 个 概率 的 确 远 低 于 P(A)。 可 是 ,在 飞机 失事 已 经 发 生 的 时 候 , 飞 机 再 

次 失事 的 概率 依然 是 : 
P(A) = 0.01% 

因为 事故 之 间 是 彼此 独立 的 。 如 果 两 者 彼此 存在 关联 ,这 个 概率 甚至 会 
变 得 更 大 。 

对 独立 事件 还 有 另 一 种 常见 的 误解 。 

请 你 快速 回答 : 抛 硬 币 时 ,出 现 正面 ?和 ”出 现 反面 ”互相 独立 吗 ? 

我 希望 听 到 肯定 的 回答 ,这 样 我 就 可 以 纠正 你 的 错误 了 ! 关于 独立 事件 
的 第 二 个 误解 就 是 : 把 不 能 同时 发 生 的 事件 当 作 互 相 独 立 的 事件 .“ 正 面 ? 和 
“反面 ?的 确 不 可 能 同时 出 现 ,它们 看 起 来 互 不 侵犯 ,难道 不 是 互相 独立 吗 ? 答 
案 是 否定 的 。 因 为 独立 事件 的 含义 是 , 当 一 个 随机 事件 发 生 时 ,不 影响 另 一 个 
随机 事件 发 生 的 概率 。 如 果 抛 硬币 出 现 了 正面 ,那么 ,出 现 反面 的 概率 会 从 
50% 降 为 01 

关于 独立 事件 ,我 们 需要 记 住 以 下 三 点 : 

(1) 一 个 随机 事件 发 生 两 次 的 概率 不 等 于 一 个 随机 事件 再 次 发 生 的 
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概率 ; 

(2) 不 可 能 同时 发 生 的 事件 不 是 互相 独立 的 ; 

(3) 独立 事件 的 含义 是 ,不 论 一 个 随机 事件 发 生还 是 不 发 生 时 ,都 不 会 影 
响 男 一 个 随机 事件 发 生 的 概率 。 


独立 事件 的 数学 表达 


还 记得 概率 乘法 吗 ? 
P(AB) = P(B | A) + P(A) 
我 们 刚刚 学 到 ,独立 事件 的 含义 是 , 当 一 个 随机 事件 发 生 时 ,不 影响 另 一 
个 随机 事件 发 生 的 概率 。 这 听 起 来 很 像 条 件 概率 的 定义 ,实际 上 ,这 句 话 等 价 
于 下 面 的 数学 表达 式 : 
P(B | A) = P(B) 
将 这 两 个 表达 式 合并 起 来 ,就 可 以 得 到 , 当 随 机 事件 A 和 随机 事件 B H. 
相 独 立时 ， 
P(AB) = P(B) + P(A) 
上 面 的 表述 前 后 颠倒 一 下 ,就 是 独立 事件 的 定义 。 
设 A 和 B 是 两 个 随机 事件 ,如 果 满 足 
P(AB) = P(B) + P(A) 
则 称 A 和 B 互相 独立 ,或 称 A 和 B 互 为 独立 事件 。 
这 是 两 个 事件 相互 独立 的 定义 , 那 如 果 是 三 个 事件 呢 ? 
W A,B,C 是 三 个 随机 事件 ,如 果 满 足 如 下 等 式 : 
P(AB) = P(B) + P(A) 
P(AC) = P(A) + P(C) 
P(BC) = P(B) + P(C) 
P(ABC) = P(A) + P(B) = P(O) 
则 称 A,B,C 互相 独立 。 
由 此 可 以 推论 出 个 事件 互相 独立 的 定义 ,请 读者 们 自行 脑 补 。 
本 节 的 最 后 ,我 要 告诉 你 那个 小 谜 题 的 一 个 参考 答案 : 扔 两 次 瓶 盖 ,出 现 
“正面 .反面 ,贝壳 归 小 明 ; 出 现 * 反 面 、. 正 面 ", 贝 壳 归 妹妹 ;出 现 其 他 情况 , 父 
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亲 重 新 扔 ,直到 贝克 有 了 归属 为 止 。 因 为 每 次 扔 瓶 盖 是 互相 独立 的 ,所 以 ,出 
HA“ IE E n 反面 ?和 ”反面 .正面 ”的 概率 一 定 是 相等 的 ,独立 事件 帮助 我 们 实现 


了 公平 。 


15 全 概率 法 则 : 英超 冠军 争夺 战 


现代 足球 的 百年 历史 画卷 上 留 下 过 很 多 "草根 逆 袭 "的 神话 “70 后 ”会 追 
忆 1992 年 欧洲 杯 的 “丹麦 童话 ”“80 后 ”依稀 记得 2004 年 欧洲 杯 的 “希腊 神 
话 ”, 我 倒 觉得 , 像 欧 洲 杯 这 样 的 淘汰 赛 具有 很 大 的 偶然 性 。 真 正 有 实力 的 黑 
马 当 属 1997—1998 赛季 的 凯 泽 斯 劳 滕 队 , 他 们 在 升级 到 甲 级 联赛 的 第 一 个 赛 
季 就 力 压 德甲 霸主 拜仁 慕尼黑 ,获得 了 联赛 冠军 ,在 当时 被 认为 “ 难 后 有 来 
者 ”。 然 而 ,总 有 人 要 挑战 不 可 能 ,来 自 英超 联赛 的 小 球 会 莱 斯 特 城 队 很 可 能 
重演 草根 逆 袭 的 神话 。 


SEATS BO 


2015—2016 赛季 的 英超 联赛 ,可 谓 翻 天 覆 地 ,有 一 句 话 能 最 贴切 的 描述 英 
超 的 现状 一 一 本 想 保 级 的 队伍 现在 在 争 冠 ,本 想 争 冠 的 队伍 现在 在 保级 ,只 有 
阿森 纳 实 现 了 “ 争 四 ”的 目标 。 我 们 就 来 一 起 聊 聊 那 支 “ 本 想 保 级 , 却 在 争 冠 ” 
的 队伍 一 一 莱 斯 特 城 队 。 

莱 斯 特 是 英格兰 中 部 的 一 座 城市 ,位 于 伦敦 西北 156 公里 ,人 口 约 32 万 。 
莱 斯 特 城 足 球 俱乐部 成 立 于 1884 年 ,绰号 “狐狸 ”, 他 们 于 1890 年 加 入 英格兰 
足球 协会 ,在 中 部 地 区 联赛 里 混迹 了 三 年 后 ,他 们 于 1894 年 夺 得 亚军 ,获得 了 
参加 全 国 乙 级 联赛 的 资格 。1908 年 , 莱 斯 特 城 队 获 得 乙 级 联赛 亚军 ,终于 升 入 
级 联赛 ,然而 ,由 于 实力 不 济 , 他 们 很 快 便 降级 了 。 此 后 的 多 年 ,他 们 一 直 在 
级 联赛 和 乙 级 联赛 中 徘徊 ,成 绩 不 温 不 火 。 上 赛季 ,他 们 从 英 甲 联赛 逢 入 英 
馈 联 赛 ,勉强 完成 了 保级 任务 , 留 在 了 英超 。 夏 季 休 赛 期 ,时 任 莱 斯 特 城主 帅 
的 皮尔 逊 因为 儿子 在 泰国 曝 出 性 丑闻 ,被 球 队 的 泰国 老板 愤 而 解职 。 随 后 ,他 
门 请 来 了 老 帅 拉 涅 利 。 


a 
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拉 涅 利 , 意 大 利 人 ,绰号 “ 补 锅 匠 ,执教 履历 丰富 ,执教 风格 保守 。“ 当 我 
和 球 队 谈话 时 ,我 发 现 他 们 害怕 意大利 战术 ,他 们 看 起 来 不 怎么 相信 我 ,我 自 
己 也 是 ”在 近日 的 采访 中 , 拉 涅 利 谈 起 了 刚 接手 莱 斯 特 城 队 时 的 情景 ,“ 我 认 
为 一 个 教练 最 重要 的 是 围绕 自己 球员 的 特点 构建 球 队 ,所 以 我 对 球员 们 说 ,我 
言 任 你 们 ,我 不 会 多 说 战术 的 事 。 英 国 的 比赛 强度 超 高 ,几乎 能 把 球员 榨 干 ， 
他 们 需要 时 间 恢 复 。 我 要 确保 球员 们 每 周 有 两 天 完全 与 足球 无 关 , 这 是 我 在 
第 一 天 就 对 他 们 强调 的 ,这 是 一 种 信任 。” 

正如 拉 涅 利 所 说 ,他 对 球 队 充 分 信任 。 拉 涅 利 上 任 后 ,基本 保留 了 球 队 的 
原 班 人 马 ,包括 助理 教练 团队 。 这 使 得 球 队 很 快 度 过 了 磨合 期 ,球员 们 也 踢 的 
更 自信 。 正 是 主帅 的 信任 和 球员 的 自信 让 莱 斯 特 城 队 踢 出 了 十 分 高 效 的 足 
球 ,他 们 一 路 过 关 斩 将 , 踢 的 霸气 十 足 。 曾 经 的 英超 五 强 中 ,只 有 阿森 纳 队 在 
勉强 追赶 莱 斯 特 城 队 ,然而 ,圣诞 节 过 后 ,“ 争 四 魔 澳 ”再 度 降 临 , 温 格 的 球 队 无 
可 挽回 的 滑 向 第 4 名 , 莱 斯 特 城 队 却 依旧 坚挺 。 

“英超 赛季 快 过 半 了 ,占据 积分 榜 头 名 的 是 一 支 叫 莱 斯 特 城 的 球 队 。 一 年 
前 的 圣诞 节 , 他 们 排名 垫底 ,濒临 降级 。” 面 对 媒体 的 赞扬 ,调侃 或 者 质疑 , 莱 斯 
特 城 队 的 教练 和 队员 始终 在 强调 :“ 我 们 的 目标 是 取得 40 个 以 上 的 积分 ,确保 
保级 成 功 。” 

莱 斯 特 城 队 的 低调 务实 不 是 没有 理由 的 ,从 勉强 保级 ,到 和 争夺 冠军 ,更 何 
况 是 在 竞争 激烈 的 英超 联赛 ,这 实在 是 天 方 夜 谭 。 然 而 ,在 刚 结 束 的 英超 第 31 
轮 , 莱 斯 特 城 队 1 : 0 小 胜 水 晶 宫 队 , 将 自己 的 领先 优势 保持 在 5 分 , 随 着 联赛 
轮 数 逐 渐 减少 ,这 样 的 优势 促使 莱 斯 特 城 队 的 夺冠 概率 变 得 越 来 越 大 。 比 赛 
中 , 莱 斯 特 城 队 球迷 已 经 在 看 台 上 高 唱 起 “我 们 将 要 赢得 英超 冠军 ”的 口号 。 
其 实 , 无 论 莱 斯 特 城 队 能 否 最 终 夺冠 ,我 们 都 在 内 心 深 处 成 了 莱 斯 特 城 队 的 球 
迷 , 正 如 老 帅 拉 涅 利 所 说 :“ 莱 斯 特 能 夺冠 吗 ? 我 不 知道 ,但 能 被 问 到 这 个 问 
题 就 足够 美妙 了 。 在 这 个 金钱 衡量 一 切 的 时 代 , 我 们 给 了 每 个 人 希望 。” 


莱 斯 特 城 队 的 夺冠 概率 


假如 我 们 都 是 莱 斯 特 城 队 的 球迷 ,我 们 一 定 特 别 想 知 道 , 莱 斯 特 城 队 夺冠 
的 概率 到 底 有 多 少 。 表 1-2 是 英超 联赛 截至 第 31 轮 的 积分 榜 , 表 1-3 是 莱 斯 
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特 城 队 未 来 赛程 。 


表 1-2 英超 联赛 2015 一 2016 赛季 积分 榜 (截至 第 31 $) 


排名 | 球 队 场次 | 积分 胜 w 负 进 球 | 失 球 | 净 胜 球 
1 | 莱 斯 特 城 31 66 19 9 3 54 31 23 
2 | 热 刺 31 61 17 10 4 56 24 32 
3 | 阿森 纳 30 55 16 7 7 48 30 18 
4 | 曼城 30 51 15 6 9 52 32 20 
5 | 西汉 姆 联 30 50 13 11 6 47 35 12 
6 曼联 30 50 14 8 8 38 27 11 
7 | 南安 普 31 47 13 8 10 41 32 9 
8 | 斯 托 克 城 31 46 13 7 11 34 37 一 
9 | 利物浦 29 44 12 8 9 45 40 5 
10 | 切尔西 30 41 10 11 9 45 41 4 
11 | 西 布朗 30 39 10 9 11 30 37 =7 
12 | 埃 弗 顿 29 38 9 11 9 51 41 10 
13 | 伯 恩 茅 斯 31 38 10 8 13 38 50 一 12 
14 | 沃 特 福 德 30 37 10 7 13 30 32 —2 
15 | 斯 旺 西 31 36 9 9 13 31 40 一 9 
16 | 水 晶 宫 30 33 9 6 15 32 40 一 8 
17 | 诺 维 奇 31 28 7 7 17 32 54 一 22 
18 | 桑 德 兰 30 26 6 8 16 36 55 —19 
19 | 纽卡斯尔 30 25 6 7 17 29 55 一 26 
20 | 阿 斯 顿 维 拉 | 31 16 3 7 21 22 58 一 36 

R13 莱 斯 特 城 队 未 来 赛程 

轮 次 主场 客 场 
第 32 轮 莱 斯 特 城 南安 普 屯 
第 33 轮 桑 德 兰 莱 斯 特 城 
第 34 轮 莱 斯 特 城 西汉 姆 联 
第 35 轮 莱 斯 特 城 斯 旺 西 
第 36 轮 曼联 莱 斯 特 城 
第 37 轮 莱 斯 特 城 埃 弗 顿 
第 38 轮 切尔西 莱 斯 特 城 


莱 斯 特 城 队 能 否 夺冠 不 仅 与 自身 的 比赛 结果 有 关 。 还 与 其 他 球 队 的 比赛 
结果 有 关 , 因 此 ,我 们 需要 分 不 同 的 情况 来 讨论 ,然后 把 这 几 种 情况 所 求 的 概 
率 相 加 ,才能 得 到 莱 斯 特 城 队 夺冠 的 概率 ,这 就 要 用 到 概率 论 中 的 “全 概率 
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设 随机 试验 EE 共有 n 种 可 能 的 结果 Ai ,Az,…,A,, 这 些 结果 两 两 不 可 能 

同时 出 现 ,那么 , 任 一 随机 事件 B 的 概率 满足 : 
P(B) =P(B| Ai) + P(A) + P(B | A2) © P(A) 十 … 十 
P(B | A,) + PCAs) 

这 就 是 全 概率 公式 。 它 隐 含 的 思想 正 是 我 们 在 数学 课 上 常用 的 ”分 情况 
讨论 ”, 只 不 过 ,这 里 要 求 我 们 一 定 要 把 所 有 情况 都 列举 全 ,而 且 不 同 的 情况 之 
AA AE Ae MH 

在 莱 斯 特 城 队 登场 前 ,我们 先 来 热身 一 下 。 

请 问 , 抛 掷 一 枚 硬币 两 次 ,出 现 至 少 一 次 正面 的 概率 是 多 少 ? 

有 些 读者 会 马上 想到 计算 两 次 都 是 反面 的 概率 ,然后 用 1 减 去 这 个 概率 ， 
这 是 个 很 聪明 的 想法 ,但 在 这 里 ,我 们 要 对 全 概率 公式 进行 刻意 练习 。 设 

随机 事件 A: 第 一 次 抛 硬币 出 现 正面 ; 

随机 事件 Az: 第 一 次 抛 硬币 出 现 反 面 ; 

随机 事件 Bi: 第 二 次 抛 硬币 出 现 正面 ， 

随机 事件 Bo : 第 二 次 抛 硬币 出 现 反 面 ， 

随机 事件 C: 两 次 至 少 出 现 一 次 正面 。 

根据 全 概率 公式 ， 

P(C) =P(C | Ai) * P(A) + P(C | A2) + P(A;) 
一 1. P(A\) + P(B,) + P(A,) 
=1xXV2+V2xV2 
=3 4 

至 少 出 现 一 次 正面 的 概率 是 3 4。 

接 下 来 ,我 们 就 用 全 概率 公式 来 算 一 算 莱 斯 特 城 队 夺冠 的 概率 。 为 了 简 
化 计算 过 程 ,我 们 仅 用 积分 来 度量 莱 斯 特 城 队 夺 冠 的 可 能 性 。 过 去 17 个 赛 
季 , 英 超 冠 军 的 最 低 积 分 为 79 分 ,2000 年 之 后 ,英超 冠军 的 平均 积分 更 是 高 达 
87.5 分 ,就 本 赛季 目前 的 积分 情况 ,“ 低 分 冠军 ”似乎 已 成 定局 。 虽 然 莱 斯 特 城 
队 现在 领先 优势 不 小 ,但 是 ，“ 永 远 不 要 低估 一 颗 冠军 的 心 ”那些 苦 苦 追赶 的 
队伍 有 可 能 在 最 后 7 轮 变 身 疯狂 的 抢 分 机 器 。 因 此 , 老 帅 拉 涅 利 为 球 队 定 下 
T 79 分 的 目标 ,他 认为 ,如 果 莱 斯 特 城 队 在 赛季 结束 时 的 积分 能 够 达到 甚至 
超过 79 分 , 便 一 定 能 夺冠 。 我 们 也 以 79 分 为 标准 ,来 计算 莱 斯 特 城 队 夺 冠 的 
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莱 斯 特 城 队 夺冠 的 概率 等 价 于 莱 斯 特 城 队 获 得 不 低 于 79 分 的 概率 。31 
轮 过 后 , 莱 斯 特 城 队 积 66 分 ,距离 79 分 还 有 13 分 。 设 

随机 事件 A: 莱 斯 特 城 队 获得 至 少 13 个 积分 。 

根据 全 概率 公式 : 

PCA) =PCA | 莱 斯 特 城 第 32 轮 取 胜 ).* P( 莱 斯 特 城 第 32 轮 取胜 ) 4 
PCA | 莱 斯 特 城 第 32 轮 打 平 ) + P( 莱 斯 特 城 第 32 轮 打 平 ) 4 
P(A | 莱 斯 特 城 第 32 HET + P( 莱 斯 特 城 第 32 轮 告 负 ) 
三 P( 莱 斯 特 城 后 6 轮 取 得 至 少 10 分 )* P( 莱 斯 特 城 第 32 轮 取胜 ) 4 
PORTER BU 6 轮 取得 至 少 12 分 ). P( 莱 斯 特 城 第 32 轮 打 平 ) + 
P( 莱 斯 特 城 后 6 轮 取得 至 少 13 分 )* P( 羔 斯 特 城 第 32 轮 告 负 ) 

然后 ,我 们 还 可 以 用 全 概率 公式 来 计算 P( 莱 斯 特 城 后 6 轮 取得 至 少 10 
分 )、P( 莱 斯 特 城 后 6 轮 取得 至 少 12 分 ) 和 P( 莱 斯 特 城 后 6 轮 取得 至 少 13 
分 ) ,按照 同样 的 思路 继续 分 解 下 去 ,直到 最 后 一 轮 比赛 。 对 于 每 一 场 比赛 ,我 
们 要 估计 出 莱 斯 特 城 队 获 胜 的 概率 ,然后 将 这 些 概 率 代入 全 概率 公式 中 , 便 可 
以 求 得 P(A)。 

我 知道 ,我 食 言 了 ,我 没有 算出 莱 斯 特 城 队 的 夺冠 概率 ,其 实 , 我 本 就 没 打 
算 真正 去 计算 这 个 概率 ,毕竟 ,我 们 已 经 学 习 到 了 全 概率 公式 的 用 法 ,这 就 足 
够 了 ,至 于 莱 斯 特 城 队 能 否 夺冠 ,我 们 只 需要 重 温 老 帅 拉 湿 利 的 那 句 话 就 可 以 
了 一 一 “ 莱 斯 特 能 夺冠 吗 ? 我 不 知道 ,但 能 被 问 这 个 问题 就 足够 美妙 了 。 在 这 
个 金钱 衡量 一 切 的 时 代 , 我 们 给 了 每 个 人 希望 。” 
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21 随机 变量 : 盘子 游戏 


骨 子 ,俗称 色 子 , 是 全 世界 都 熟知 的 赌博 道具 。 骨 子 的 历史 可 以 追溯 到 十 
巴比伦 、 古 埃及 时 期 ,在 中 国 古代 的 赌场 里 ,也 是 赌博 道具 的 不 二 之 选 。 你 可 
不 能 小 看 这 小 小 的 仍 子 , 它 对 概率 思想 的 启蒙 做 出 了 不 可 磨灭 的 贡献 。 

文艺 复兴 时 期 ,意大利 学 者 吉 罗 拉 莫 ， 卡 尔 达 诺 曾 撰文 研究 般 子 原理 ， 
“在 下 注 之 前 ,你 需要 知道 所 有 可 能 的 结果 ,然后 对 比 一 下 输赢 的 结果 各 有 多 
少 种 ,再 按照 这 个 比例 去 设置 奖金 ,这 样 才 能 确保 赌局 的 公平 ”这 大 概 是 “ 概 
率 思想 ”最 早 的 启蒙 ,在 当时 是 相当 有 革命 性 的 思想 。 其 后 ,著名 的 物理 学 家 
伽利略 也 对 赌博 中 的 数学 原理 产生 了 兴趣 ,并 撰写 了 《 骨 子 的 研究 ) 一 书 , 在 书 
中 ,他 开创 性 的 研究 了 掷 多 个 鹏 子 时 可 能 出 现 的 点 数 ,以 及 这 些 点 数 会 在 怎样 
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的 情况 下 出 现 。 在 那 之 后 ,赌博 中 的 数学 问题 引起 了 很 多 学 者 的 思考 和 讨论 ， 
其 中 包括 著名 数学 家 帕斯卡 和 费 马 。 

我 们 回 到 过 去 ,一 起 来 看 一 看 在 概率 论 尚未 建立 时 ,聪明 人 是 怎么 利用 般 
子 赚钱 的 。 
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次 至 少 出 现 一 个 六 点 的 概率 ,可 以 用 逆向 思维 ,计算 掷 四 次 没有 任何 一 次 出 现 
六 点 的 概率 ,再 用 1 减 去 算出 的 概率 即 可 ,由 于 每 次 搓 仍 子 都 是 彼此 独立 的 ， 
因此 : 
POR) 王 1 一 已 ( 掷 四 次 没有 任何 一 次 出 现 六 点 ) 
=1 — P( 第 一 次 没 出 现 六 点 ) X 已 (第 二 次 没 出 现 六 点 ) X 
P( 第 三 次 没 出 现 六 点 ) X P( 第 四 次 没 出 现 六 点 ) 
=1— (5 6) X (5 6) X (5 6) x (Y 6) 
=0. 518 
相对 的 ,P( 莫 雷 输 )==(5 6)X(5 6)X(5 6) X (5 6) =0. 482 
莫 雷 赢得 赌局 的 概率 总 是 大 于 对 手 , 所 以 莫 雷 可 以 靠 这 个 赌局 赚 到 钱 ， 
对 吗 ? 
不 对 ! 因为 赌 徒 赚 的 可 不 是 概率 ,是 真 金 白 银 ,我 们 忘记 了 赌局 上 最 重要 
的 东西 一 一 筹码 。 在 莫 雷 的 赌局 中 ,双方 的 筹码 是 对 等 的 ,假定 为 “一 两 黄 
金 ”, 也 就 是 说 , 莫 雷 和 对 手 各 自 拿 出 一 两 黄金 作为 筹码 ,如 果 出 现 了 六 点 , 莫 
雷 拿 走 对 手 的 一 两 黄金 ,如 果 没 出 现 六 点 , 莫 雷 将 一 两 黄金 送 给 对 手 。 如 
表 2-1 所 示 , 我 们 设 定 了 一 个 关联 关系 一 一 赌局 结果 与 莫 雷 赢得 的 筹码 之 间 
的 关联 , 莫 雷 赢得 一 两 黄金 的 概率 是 0. 518, 莫 雷 输 掉 一 两 黄金 的 概率 是 
0. 482, 如 果 将 筹码 的 单位 去 掉 , 便 可 以 表示 成 “十 1” 对 应 的 概率 是 0. 518， 
“一 1” 对 应 的 概率 是 0. 482。 
在 概率 论 中 , 莫 雷 赢得 的 筹码 就 是 一 个 随机 变量 。 
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表 2-1 莫 雷 赌局 的 结果 


赌局 结果 概率 英和 雷 赢 得 的 筹码 
REM 0. 518 十 1( 赢 得 一 两 黄金 7 
英和 雷 输 0. 482 一 1( 输 掉 一 两 黄金 ) 


随机 变量 


假设 随机 试验 有 若干 个 可 能 的 结果 A ,A:,…',A,, 如 果 变 量 X 满足: Ar, 
A:,…,A, 每 一 个 都 对 应 X 的 一 个 数值 ,那么 ,X 就 称 为 随机 变量 。 

上 面 的 例子 中 ,赌局 是 随机 试验 ,赌局 有 两 种 可 能 的 结果 A: 莫 雷 赢 ， 
Az: 莫 雷 输 , 莫 雷 赢得 的 筹码 是 变量 X,A; 对 应 X 王 十 1,A: 对 应 X 王 一 1, 所 
以 ,X 是 一 个 随机 变量 。 也 就 是 说 ,随机 试验 的 每 一 个 结果 都 对 应 X 的 一 个 值 。 

一 个 随机 试验 可 以 包含 不 止 一 个 随机 变量 ,我 们 仍 以 人 般 子 游戏 为 例 。 

小 红 、 小 黄 和 小 蓝 三 个 小 朋友 玩 骨 子 游戏 ,规则 是 : 扔 一 次 山子 ,出 现 一 
点 或 二 点 ,小 红 启 ;出现 三 点 或 四 点 ,小 黄 赢 ;出 现 五 点 或 六 点 ,小 蓝 赢 。 游 戏 
开始 时 ,三 个 小 朋友 各 自 有 五 块 泡泡糖 ,每 局 的 赌注 是 一 人 一 块 泡泡糖 ,赌局 
一 直 进行 到 有 人 输 光 为 止 。 

般 子 的 每 个 点 数 出 现 的 概率 都 是 V 6 ,游戏 中 有 三 位 小 朋友 ,可 以 设 定 三 
个 随机 变量 ,分 别 是 : 

随机 变量 X: 小 红 一 局 赢得 的 泡泡糖 数量 ; 

随机 变量 Y: 小 黄 一 局 赢得 的 泡泡糖 数量 ; 

随机 变量 Z: 小 蓝 一 局 赢得 的 泡泡糖 数量 。 

我 们 把 游戏 结果 和 随机 变量 一 一 列 出 ,如 表 2-2 所 示 。 


R22 般 子 游戏 的 结果 与 随机 变量 


游戏 结果 概率 X( 小 红 ) Y( 小 黄 ) Z( 小 蓝 ) 
一 点 V6 +2 =j -1 
=A V6 +2 =] =j 
=A V6 三 型 十 2 一 1 
四 点 V6 =} +2 = 
五 点 V6 =} 一 1 十 2 
六 点 V6 = =I +2 
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离散 与 连续 


Aixte— BAF .“1231,1231,345,345,5654,31,565 
4,31,2510,25 10", RERI PRE BS? 

也 许 有 些 读者 一 眼 就 看 穿 了 我 的 把 戏 ,但 我 还 是 不 想 现在 就 公布 答案 ,我 
们 先 来 讨论 随机 变量 的 两 个 平行 世界 一 一 离散 和 连续 。 

现在 ,环顾 你 的 四 周 ,你 能 看 到 什么 ? 你 的 手 、 这 本 书 \ 手 机 、 绿 植 等 ,这 是 

Na 
你 有 两 只 手 , 你 的 手 上 有 一 本 书 ,你 有 一 部 手机 ,手机 里 有 两 张 SIM 卡 , 你 的 
mised ee 可 是 ,世界 并 非 全 部 如 你 所 见 。 你 一 定 记得 ,多 年 前 
的 生物 课 上 , 当 你 第 一 次 从 显微镜 里 看 到 一 团 蠕 动 的 细胞 时 ,是 多 么 的 惊讶 和 
好 奇 , 那 仿佛 是 另 一 个 世界 ! 科学 告诉 我 们 ,显微镜 下 的 细胞 与 我 们 看 到 的 绿 
叶 身 处 同一 个 世界 ,只 不 过 它们 太 微 小 了 ,我 们 看 不 到 。 我 们 常 把 肉眼 看 到 的 
世界 称 为 宏观 世界 ,把 那个 看 不 见 的 世界 称 为 微观 世界 。 

在 数学 世界 里 ,也 有 宏观 与 微观 的 划分 。 我 们 从 小 学 习 的 四 则 运算 ,一 元 
二 次 方程 等 都 是 “宏观 世界 ”的 数学 语言 ,直到 我 们 遇 上 那 几 个 让 人 抓 狂 的 符 
号 一 一 "| ,A,9”。 从 此 ,我 们 进入 了 数学 的 “微观 世界 ”, 那 些 简单 的 四 则 运算 
在 “微观 世界 ”里 统统 变 了 模样 ,它们 演化 成 全 新 的 运算 规划 一 一 微 积分 。 微 
微分 扩张 了 概率 论 的 疆域 ,随机 变量 不 再 只 是 赌 徒 的 筹码 , 它 也 可 以 是 时 间 、 
温度 ,于 是 ,随机 变量 便 自然 地 划分 为 两 类 一 一 离散 与 连续 。 

离散 随机 变量 , 指 的 是 随机 变量 的 取 值 是 有 限 的 或 可 列 无 限 个 。 比 如 ,小 
红 一 局 赢得 的 泡泡糖 数量 只 有 两 个 可 能 的 取 值 ;又 如 ,一 个 把 所 有 正 整数 都 刻 
在 上 面 的 仍 子 ,这 个 骨 子 掷 出 的 点 数 可 能 是 任何 一 个 正 整数 ,这 就 是 “可 列 无 
限 个 ”的 离散 随机 变量 。 

连续 随机 变量 , 指 的 是 随机 变量 的 取 值 有 无 限 多 个 并 且 不 可 列 出 。 当 我 
们 把 时 间 、 温 度 、 空 间 等 无 法 一 一 罗列 出 来 的 指标 作为 随机 变量 的 时 候 ,连续 
随机 变量 就 出 现 了 

有 关 离 散 随机 变量 和 连续 随机 变量 的 讨论 才刚 刚 开始 ,在 后 续 章 节 中 ,我 
们 会 认识 很 多 常用 的 随机 变量 ,它们 有 些 是 离散 的 ,有 些 是 连续 的 ,但 无 一 例 
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外 地 都 是 概率 论 的 重要 成 员 。 有 关 离 散 和 连续 的 关系 ,我 想 了 很 久 , 想 到 了 一 
个 比喻 : 音符 与 音乐 。 一 首 曲子 ,曲谱 只 是 一 个 个 “离散 ”的 数字 ,没有 规律 ， 
没有 内 涵 , 但 当 这 曲谱 被 演奏 出 来 时 ,“ 离 散 ” 的 数字 化 为 “连续 ”的 乐音 ,这 乐 
音 弥散 在 空中 ,让 你 陶醉 ,而 你 早已 忘却 了 那 一 个 个 分 离 的 音符 ,这 就 是 
散 ” 与 “连续 ”的 完美 结合 。 

最 后 ,我 要 告诉 你 , 那 一 串 貌 似 神秘 的 数字 其 实 是 一 首 歌 的 乐谱 , 歌 名 
是 一 一 (两 只 老虎 》。 


22 期 望 与 方差 : TART 


在 当下 的 信息 时 代 , 人 人 生产 信息 ,人 人 分 享 信息 ,我 们 忽然 意识 到 ,最 稀 
缺 的 资源 早已 不 是 信息 ,而 是 人 们 的 注意 力 。 无 论 是 一 篇 网 文 .一 幅 漫 画 , 还 
是 一 部 电影 ,引起 人 们 注意 的 不 二 法 则 就 是 一 一 简洁 明确 的 特征 。 网 文 要 有 
充满 悬疑 的 话题 ;漫画 要 有 个 性 鲜明 的 画 风 ; 电 影 则 最 好 有 一 两 个 大 牌 明星 ， 
一 切 都 要 有 特征 ,没有 特征 , 便 会 沦 为 平庸。 

在 概率 论 的 世界 里 ,随机 变量 也 像 网 文 ,漫画 和 电影 一 样 需 要 特征 ,这 些 
特征 应 该 能 够 反映 一 个 随机 变量 的 本 质 ,这 些 特征 主要 有 两 个 ,一 个 叫 期 望 ; 
男 一 个 叫 方差 。 

Aca A POS AST) FS Hs SSD 2-1 所 示 , 这 四 个 仙 子 会 带领 我 们 认识 期 望 
和 方差 。 


期 望 


期 望 是 随机 变量 的 第 一 个 特征 , 它 类 似 于 我 们 常 说 的 平均 值 , 但 又 不 是 简 
单 的 求 和 平均 。 我 们 沿用 上 一 节 的 例子 来 说 明 什么 是 期 望 。 
WIC AS RE HN FH Jr? 表 2-3 列 出 了 莫 雷 赌局 所 有 可 能 出 现 的 结 
果 , 随 机 变量 X 表示 莫 雷 赢得 的 筹码 。 根 据 X 的 取 值 和 对 应 的 概率 ,可 以 计 
算出 X 的 期 望 : 
E(X) = 0.518 X (十 1) + 0. 482 X (— 1) = 0. 036 
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2-1 OP RF HR 


由 此 ,我 们 可 以 得 到 这 样 的 结论 : 莫 雷 每 一 局 所 赢 筹码 的 期 望 是 0. 036 两 


表 2-3 莫 雷 赌局 的 结果 


赌局 结果 概率 X( 莫 雷 赢得 的 筹码 ) 
RE laa 0. 518 十 1( 赢 得 一 两 黄金 ) 


莫 雷 输 0. 482 一 1( 输 掉 一 两 黄金 ) 


数学 期 望 ,简称 期 望 ,是 随机 变量 的 所 有 取 值 以 对 应 概率 为 权重 的 加 权 求 

。 换 言 之 ,随机 变量 的 每 一 个 取 值 乘 以 它 对 应 的 概率 ,再 相 加 求 和 ,就 得 到 
了 随机 变量 的 期 望 。 

设 随 机 变量 X An 个 取 值 ,分 别 是 zi,zz,… ,zw 对 应 的 概率 分 别 是 p1， 
Poets Pa ABZ X 的 期 望 己 (X) 是 : 

ECX) = 21° pı + za © pote + za * pa 

这 里 需要 说 明 , 上 一 节 我 们 提 到 过 ,随机 变量 分 为 离散 和 连续 两 种 ,由 于 
连续 性 随机 变量 的 计算 涉及 微 积分 ,超出 了 本 书 的 讨论 范围 ,所 以 ,本 章 只 讨 

离散 随机 变量 。 

下 面 ,我 们 通过 两 个 仙 子 游戏 进一步 理解 期 望 。 

。 RTR I 

METK MLE X ERAR HA X 的 期 望 。 

我 们 如 法 炮制 , 列 出 X 的 取 值 和 对 应 的 概率 ,如 表 2-4 所 示 。 由 此 可 以 求 
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HWE: 
E(X) =(V 6) X1 +V 6) X2+(/ 6) X3 + 6) X44 
(VY 6) X5+(/ 6) X6 
一 3.5 


R24 MF TM 1 中 随机 变量 取 值 和 概率 


游戏 结果 概率 X( 点 数 ) 


这 个 角 子 的 点 数 期 望 是 3.5, 可 是 , 骨 子 上 可 没有 3. 5 这 个 点 数 ,期 望 值 是 


3. 5 代表 了 什么 呢 ? 
带 着 这 个 疑问 ,我 们 换 一 个 仍 子 , 把 原来 的 六 点 改 成 三 点 ,重新 来 过 。 
。 RF HR 2 
DBRT — XK BIER X 是 掷 出 的 点 数 ,计算 X 的 期 望 。 
根据 表 2-5, 可 以 求 得 期 望 ; 
E(X) =(/ 6)X1 十 (VY6)X2 十 (Y6)X3 十 (V6)X3 十 


(VY6)X4 十 (YXY6)X5 
一 3 


R25 ” 般 子 游戏 2 中 随机 变量 取 值 和 概率 


游戏 结果 


这 一 次 ,点 数 的 期 望 值 是 三 点 ,刚好 是 X 可 能 出 现 的 点 数 ,似乎 是 一 个 有 


意义 的 结果 。 可 是 ,意义 在 哪里 ? WR SRS B, 最 终 就 会 一 直 出 现 三 
点 吗 ? 显然 不 是 。 
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读者 可 以 自己 设计 几 个 仍 子 , 算 一 算 它们 的 点 数 期 望 ,看 看 期 望 和 点 数 之 
间 是 不 是 存在 联系 。 最 终 我 们 会 发 现 ,期 望 并 不 一 定 是 随机 变量 的 某 一 个 值 ， 
期 望 可 以 是 任何 数值 ,即使 它 刚 好 与 随机 变量 的 某 个 取 值 相同 ,也 与 这 个 取 值 
没有 任何 关系 。 期 望 只 是 随机 变量 的 一 个 特征 值 , 它 就 像 一 个 球体 的 “ 球 心 ”， 
随机 变量 的 取 值 好 比 球体 内 的 点 ,这 些 点 分 布 在 球 心 周围 ,甚至 就 是 球 心 本 
身 。 因 此 ,用 期 望 来 描述 随机 变量 ,就 好 像 用 球 心 来 描述 一 个 球体 。 但 是 球 心 
不 足以 描述 球体 的 全 部 特征 ,球体 还 有 男 一 个 特征 一 一 “半径 ”, 随 机 变量 的 男 
一 个 特征 “方差 ” 正 是 用 来 描述 “半径 ”的 。 


方差 


FEA TARE BEAK. 

。 FHF 3 

如 图 2-1 AA BEE 3 有 六 个 面 , 却 只 有 两 个 点 数 一 一 一 点 和 五 点 , 表 2-6 
列 出 了 随机 变量 X 的 取 值 和 概率 ,由 此 可 以 求 得 期 望 : 

E(X) =(/ 6) X14+ (7/6) X1+(/ 6) X14+(/6) XxX5+ 
(V6) X5+(/ 6) X5 
=3 

EF 3 AY AB RE 2 PE. BY AL ok SH Ae AS Td VY, I 

Be A is BE TT FER EK 5D ix MEF. 


R26 RFBRK2 中 随机 变量 取 值 和 概率 


方差 是 随机 变量 取 值 与 期 望 之 差 的 平方 ,以 对 应 概率 为 权重 的 加 权 求 和 。 
换言之 ,随机 变量 的 每 一 个 取 值 减 去 期 望 , 求 平 方 , 再 乘 以 它 对 应 的 概率 ,最 后 


034 


第 2 章 随机 变量 


求 和 ,就 得 到 了 随机 变量 的 期 望 。 
标准 差 是 方差 的 平方 根 , 是 与 期 望 具有 可 比 性 的 一 个 特征 值 。 
设 随 机 变量 X En 个 取 值 ,分 别 是 zj,zz,…,zw,* 对 应 的 概率 分 别 是 pis 
ps，… ,pa， 那 么 随机 变量 X 的 方差 Var(X) 和 标准 差 c(X) 分 别 是 
Var(X) = pı + [ar E(X) P + pz + [22 -EXW + + 
pa * [ae — EK) F 
o(X)= WarX) 
方差 和 标准 差 总 是 在 一 起 使 用 ,用 来 表示 随机 变量 偏离 期 望 的 程度 , 偏离 
的 程度 越 大 ,方差 和 标准 差 也 越 大 ,反之 则 越 小 。 
VA 2 AURA 3 为 例 ,前 面 已 经 计算 过 ,它们 的 点 数 期 望都 是 3 ,我 们 来 
计算 方差 和 标准 差 。 
HEF 2 的 点 数 的 方差 是 : 
Var(X) =(Y 6) X 1 — 3)? + (V 6) X (2—3)? + (V 6) X (3—3)? + 
O 6) X (3—3)? + V 6) X (4—3)? + (V 6) X (5—3)? 
=1.67 
HEF 2 的 点 数 的 标准 差 是 : 
aX) = V1.67 © 1.29 
EF 3 的 点 数 的 方差 是 : 
Var(X) =(V 6) X (1—3) + (7 6) X A— 3)? + (Y 6) X (1—3) + 
A 6) X (5 —3)? + (1 6) X (5 —3)? + (VY 6) X (5— 3)? 
=4 
BEF 3 的 点 数 的 标准 差 是 : 
o(X) 一 V4 一 2 
{RHA RT 3 的 点 数 方差 大 于 骨 子 2 的 点 数 方差 ,这 说 明 骨 子 3 的 点 数 
距离 期 望 值 更 “ 远 ” 一 些 , 或 者 说 , 骨 子 3 的 点 数 更 加 分 散 , 这 一 点 从 表 2-5 和 
K 2-6 中 也 可 以 看 出 。 如 果 点 数 距离 期 望 值 非常 近 会 怎样 呢 ? 
。 RFE 4 
如 图 2-1 Aras. REF 4 有 六 个 面 ,每 个 面 都 是 三 点 , 表 2-7 列 出 了 随机 变 
X 的 取 值 和 概率 ,由 此 可 以 求 得 期 望 : 
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E(X) =V 6) X3+ (VY 6) X3+(/ 6) K3+(Y 6) X34 
(VY 6) X3+(V 6) x3 
=3 


方差 : 
Var(X) =(Y 6) X (3—3)? + (V 6) X 3—3)? + (V 6) X (3—3)’+ 
(V 6) X (3-3)? + (7 6) X (3— 3)? + (7 6) X (3— 3)? 
=0 
标准 差 自然 也 是 0。 
表 2-7 ”盘子 游戏 4 中 随机 变量 取 值 和 概率 


METIER 4 是 一 个 极限 情况 , 即 随机 变量 的 每 一 个 值 都 一 样 ,这 时 ,期 户 
一 定 就 是 这 个 值 ,方差 也 一 定 是 0 一 一 方差 和 标准 差 的 最 小 值 。 事 实 上 ,这 样 
的 极端 情况 仅 存在 理论 可 能 性 ,并 无 实际 意义 , 山 子 的 所 有 点 数 都 相同 ,又 何 
谈 随机 变量 和 概率 呢 ? 


协 方差 与 相关 系数 


两 个 随机 变量 X 和 YY 组 合 起 来 构成 的 随机 变量 (X,Y) 称 为 二 维 随机 变 
量 , 二 维 随机 变量 的 方差 称 为 协 方差 。 

DAB 1 PBF 2 为 例 , 设 随 机 变量 X RT 1 的 点 数 ,随机 变量 Y oat 
F 2 的 点 数 ,X 和 YY 组 成 一 个 二 维 随机 变量 (X,Y), (X,Y) 的 概率 分 布 如 
K 2-8 所 示 。X 和 Y 的 协 方差 用 Cov(X,Y) 表 示 , 计 算 公 式 为 

Cov(X.Y) = E{[X— EC(X)J[Y — EY) J} 

由 此 前 的 计算 结果 可 知 : 
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E(X) = 3.5 
E(Y) =3 
由 表 2-8 中 的 数据 ,可 以 计算 得 到 X AY 的 协 方差 为 : 
Cov(X,Y) 一 0 
计算 出 协 方差 , 便 可 以 进而 计算 出 随机 变量 X 和 YY 的 相关 系数 pxy ,相关 
系数 的 计算 公式 为 
<= Cov(X,Y) 


Ox Oy 


R28 二 维 随机 变量 (X,Y) 的 概率 分 布 (1) 


1 V 36 V 36 V 36 V 36 V 36 Y 36 V6 
2 V 36 V 36 Y 36 Y 36 Y 36 V 36 V6 
3 y 18 y 18 y 18 V18 V18 V18 V3 
4 V 36 V 36 Y 36 V 36 Y 36 Y 36 V6 
5 V 36 V 36 Y 36 V 36 V 36 V 36 V6 


相关 系数 oxr 可 以 用 来 判断 随机 变量 X 和 Y 的 线性 相关 关系 ,oxr 一 0 说 明 
X 和 YY 不 存在 线性 相关 关系 ,oxy 隆 0 WH X BLY 存在 线性 相关 关系 。 上 述 例 
子 中 ,由 于 Cov(X,Y) 为 0, 所 以 pxy 也 为 0, 这 说 明 伙 子 1 的 点 数 和 骨 子 2 的 点 
数 没有 线性 相关 关系 。 
K 2-9 是 男 一 组 二 维 随机 变量 的 概率 分 布 ,这 是 由 两 个 标准 角 子 的 点 数 
组 合 而 成 的 二 维 随机 变量 ,根据 协 方差 和 相关 系数 的 定义 ,可 以 计算 得 到 : 
Cov(X,Y) =— 2.92 


pm =~ 1 
这 说 明 X 和 Y 存在 线性 相关 关系 ,观察 表 中 数据 可 以 看 出 ,X 和 YY 的 关 
系 是 Y 一 7 一 X, 这 也 验证 了 我 们 的 结论 的 是 正确 的 。 


表 2-9 二 维 随机 变量 (X.Y) 的 概率 分 布 (2) 


X 
y 1 2 3 4 5 6 P(Y =i) 
6 V6 0 0 0 0 0 V6 
5 0 V6 0 0 0 0 V6 
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表 2-10 是 第 三 组 二 维 随机 变量 的 概率 分 布 , 根 据 协 方差 和 相关 系数 的 定 
义 , 可 以 计算 得 到 : 


Cov(X.Y) =0 
pw =0 
这 说 明 X 和 Y 不 存在 线性 相关 关系 。 观 察 表 中 数据 可 以 看 出 ,X AMY 的 
关系 是 了 =X ,也 就 是 说 ,pxy 二 0 只 能 用 于 说 明 两 个 随机 变量 不 存在 线性 相关 
关系 ,无 法 判断 二 者 是 否 存 在 非 线 性 相关 关系 ,这 一 点 读者 一 定 要 谨 记 。 
表 2-10 二 维 随机 变量 (X,Y) 的 概率 分 布 (3) 


y x 1 2 3 4 5 6 P(Y =i) 
1 V6 0 0 0 0 0 V6 
4 0 V6 0 0 0 0 V6 
9 0 0 V6 0 0 0 V6 
16 0 0 0 V6 0 0 V6 
25 0 0 0 0 V6 0 y6 
36 0 0 0 0 0 V6 V6 
P(X=i) V6 V6 V6 V6 V6 V6 1 


23 大 数 定理 : 庄家 的 信条 


全 世界 有 这 样 四 个 地 方 ,不 宜 久 留 , 因 为 你 一 旦 到 了 那里 ,就 会 急 不 可 待 
地 把 自己 手中 的 钱 拱 手 送 人 ,它们 就 是 世界 四 大 赌 城 一 一 亚洲 澳门 .欧洲 摩 纳 
哥 以 及 美国 大 西洋 城 和 拉 斯 维 加 斯 。 
提起 赌场 ,我们 自然 会 想到 很 多 荧 幕 上 的 经 典 桥 段 ,“ 赌 神 ” 总 是 能 够 在 最 


yy 


038 


第 2 章 随机 变量 


危急 的 时 刻 祭 出 唯一 一 张 制胜 牌 ,不 仅 让 恶人 们 输 得 体 无 完 肤 ,还 会 抱 得 美人 
归 。 可 是 ,现实 中 的 赌场 里 ,根本 不 存在 什么 财神”, 每 个 人 都 只 是 一 个 玩家 。 
如 果 你 是 一 个 赌场 新 手 , 你 的 运气 总 是 会 出 奇 的 棒 , 你 下 注 , 赢 钱 ,再 下 注 , 又 
赢 了 钱 ,你 扫 视 周围 的 玩家 ,他 们 摇头 、 瘟 嘴 、 抱 她, 只 有 你 在 暗自 叫好 : 哈哈 ， 
我 赢 了 他 们 的 钱 ! 你 开始 产生 * 赌 神 ? 附 体 的 幻觉 , 你 继续 下 注 , 一 盘 又 一 盘 ， 
最 后 ,所 有 人 的 钱 都 输 光 了 一 一 自然 也 包括 你 。 
你 问 : 钱 都 去 哪儿 了 ? 
RE: RESER’ WET. 
你 问 : 谁 是 庄家 ? 怎么 赢 的 ? 
RE: 庄家 就 是 赌场 ,是 那个 为 你 准备 扑克 牌 和 香槟 的 人 ,他 虽然 没 出 现 
在 赌 桌 前 , 却 悄 无 声息 的 赚 到 了 钱 , 他 的 信条 总 是 会 护 佑 他 ,让 他 赚 到 钱 。 
你 问 : 他 的 信条 是 什么 ? 

我 答 : 全 世界 庄家 的 共同 信条 正 是 概率 论 中 最 经 典 的 理论 一 一 大 数 
定理 。 


大 数 定理 


在 抛 硬币 的 例子 里 ,有 一 个 重要 的 前 提 条 件 一 一 硬币 的 正面 与 反面 出 现 
的 概率 各 为 50% 。 你 觉得 这 看 起 来 一 定 是 对 的 吗 ? 科学 不 相信 感觉 ,科学 相 

下 面 ,请 准备 好 一 枚 一 角 的 硬币 (因为 一 角 的 更 轻 ) ,咱们 一 起 来 做 抛 硬币 
的 实验 。 实 验 过 程 是 : 高 高 抛 起 硬币 并 接 住 ,每 抛 一 次 ,都 把 结果 记录 下 来 ， 
正面 的 次 数 X 和 反面 的 次 数 了 分 别 记录 。 

抛 到 10 次 ,结果 是 ,正面 3 次 ,反面 7 次 。 

抛 到 100 次 时 ,结果 是 ,正面 43 次 ,反面 57 次 。 

抛 到 200 次 时 ,结果 是 ,正面 97 次 ,反面 103 次 。 

抛 到 1 000 次 时 ,结果 是 ,正面 513 次 ,反面 487 次 。 

这 个 实验 可 以 永远 进行 下 去 ,实验 的 目的 不 是 找到 某 一 次 抛掷 ,使 得 X 和 
Y 刚好 相等 ,实验 的 目的 是 观察 X 和 YY 的 变化 趋势 。 因 此 ,实验 暂时 只 进行 到 
1 000 次 .图 2-2 是 根据 抛掷 过 程 绘制 出 的 曲线 ,曲线 代表 的 是 正面 所 占 的 比 
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例 , 即 X CX FY) 随 抛掷 次 数 的 变化 。 


图 中 


占 比 
1 


0.5 


r r r r 次 数 
200 400 600 800 1000 


2-2 正面 所 占 的 比例 随 抛掷 次 数 的 变化 


线 呈 现 的 特征 是 , 当 抛 搓 次 数 很 少时 ,正面 所 占 比例 的 变化 幅度 很 


大 ,并 且 与 0.5 的 差 值 比较 大 , 随 着 抛掷 次 数 越 来 越 多 ,正面 所 占 的 比例 的 变 
化 幅度 越 来 越 小 ,而 且 一 直 围绕 在 0. 5 的 周围 。 根 据 这 条 曲线 ,我 们 甚至 可 以 
预期 ,1 000 次 之 后 的 曲线 还 会 在 0. 5 周围 徘徊 , 感 兴趣 的 读者 可 以 把 实验 继 


续 做 下 去 


大 数 定理 , 指 的 是 随机 事件 发 生 的 频率 会 随 着 随机 试验 次 数 的 不 断 增 加 
趋向 于 它 的 概率 , 简单 来 说 就 是 ,试验 次 数 越 多 ,频率 离 概率 越 近 , 而 且 越 稳 
定 。 在 上 面 的 实验 中 ,随机 事件 是 “ 抛 硬币 出 现 正面 ”频率 是 “正面 出 现 所 占 
的 比例 (X 二 Y)”, 随 着 抛掷 次 数 的 增加 ,这 个 频率 越发 趋 近 概 率 值 0. 5, 大 


数 定理 像 


一 只 “看 不 见 的 手 ”, 掌 控 着 试验 过 程 。 


空手 套利 的 庄家 


我 们 
钱 的 。 


回 到 赌场 , 坐 回 到 赌 桌 前 ,看 一 看 大 数 定理 是 怎么 暗中 帮助 庄家 赚 到 


我 们 要 玩 的 是 赌场 里 很 流行 的 一 个 游戏 一 一 大 转盘 。 游 戏 的 道具 是 如 
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图 2-3 所 示 的 大 转盘 ,转盘 上 有 38 个 格子 ,格子 里 填写 了 1 一 36 的 数字 和 两 个 
特殊 数字 0.00, 玩 家 的 下 注 方式 有 很 多 种 ,比如 下 注 奇 数 ,下 注 黑色 格子 的 数 
字 , 或 者 下 注 某 一 个 数字 。 这 里 需要 特别 说 明 的 是 ,0 和 00 这 两 个 数字 不 包含 
在 任何 赌注 中 ,这 两 个 数字 是 留 给 庄家 的 ,也 就 是 说 , 当 转 盘 的 指针 最 终 指向 0 
或 00 时 ,庄家 赢得 所 有 的 筹码 。 

我 们 挑选 赢 的 概率 最 大 和 最 小 的 两 种 赌注 。 

赢 的 概率 最 小 的 赌注 是 下 注 某 一 个 数字 , 当 玩家 下 注 某 一 个 数字 时 ,他 赢 
的 概率 是 V 38 ,而 此 时 庄家 赢 的 概率 是 2/ 38 ,很 显然 ,玩家 会 输 给 庄家 ! 

赢得 概率 最 大 的 赌注 是 下 注 黑色 (或 红色 ) 数 字 , 当 玩家 下 注 黑 色 ( 或 红 
色 ) 数 字 时 ,他 赢 的 概率 是 18 38, 这 时 ,庄家 赢 的 概率 仍然 是 2 38 ,很 显然 , 玩 
家 会 战胜 庄家 ! 

很 显然 ,上 面 的 分 析 是 错 的 ! 

因为 玩家 和 庄家 要 赢 的 是 筹码 ,可 不 是 概率 ! 概率 只 是 我 们 分 析 赌 局 的 
工具 ,玩家 们 真正 关注 的 不 是 概率 ,而 是 所 赢 筹码 的 期 望 。 为 了 计算 所 赢 筹 码 
的 期 望 ,我 们 首先 要 了 解 赌场 里 一 个 重要 的 常识 一 一 赔 率 。 

赔 率 是 赌场 为 每 一 个 赌注 设置 的 “赔钱 比例 ”, 比 如 ,在 2015 一 2016 赛季 
英超 联赛 开始 前 ,博彩 公司 为 莱 斯 特 城 队 开 出 的 夺冠 赔 率 是 1: 5 000, 这 个 比 
例 的 含义 是 ,玩家 用 1 英镑 下 注 莱 斯 特 城 队 夺冠 ,如 果 莱 斯 特 城 队 最 终 夺 冠 
博彩 公司 会 付 给 玩家 5 000 英镑 ( 含 玩家 下 注 的 1 英镑 ) 。 同 时 ,阿森 纳 的 夺冠 
赔 率 是 1 : 3.5, 即 ,下 注 阿 森 纳 夺冠 1 英镑 的 玩家 ,即使 赢 了 也 只 能 得 到 3. 5 
英镑 。 从 这 样 的 赔 率 可 以 看 出 ,在 英超 联赛 开始 之 前 ,博彩 公司 看 好 阿森 纳 夺 

K 2-11 给 出 了 大 转盘 中 各 类 赌注 的 赔 率 ,我 们 利用 这 些 赔 率 来 计算 玩家 
和 庄家 所 赢 筹码 的 期 望 。 


表 2-11 美式 大 转盘 赔 率 


下 注 类 型 庄家 开 出 的 赔 率 
红色 (或 黑色 ) 1:2 
偶数 (或 奇数 ) Tig 
1~18( ek 19~36) 1:2 
任意 12 个 数字 1:3 
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续 表 


下 注 类 型 庄家 开 出 的 赔 率 


任意 两 行 数字 1:4 
任意 四 个 数字 1:9 
任意 一 行 数 字 1:12 
两 个 相 邻 数字 1:18 
一 个 数字 1:36 


假设 玩家 拿 一 个 筹码 下 注 某 一 个 数字 ,他 赢 的 概率 是 38, 赢 了 可 以 得 到 
35 个 筹码 , 输 的 概率 是 37 38, 输 了 会 输 掉 这 一 个 筹码 ,所 以 玩家 所 赢 筹 码 的 


期 望 是 : 
下 (玩家 下 注 某 个 数字 时 ,玩家 所 赢 筹 码 ) =V 38 X 35 + 37 38 X (一 1) 
一 一 V 19 
一 一 0.052 6 


与 玩家 相对 的 ,庄家 所 赢 筹码 的 期 望 是 : 


E( 玩 家 下 注 某 个 数字 时 ,庄家 所 赢 筹 码 ) =V 38 X (一 35) 十 3V 38 X (十 1) 


=V 19 
一 0. 052 6 


用 同样 的 方法 ,可 以 计算 出 玩家 下 注 黑 色 数字 时 ,玩家 和 庄家 所 赢 筹码 的 


期 望 : 

E( 玩 家 下 注 黑 色 数 字 时 ,玩家 所 赢 筹码 ) =18/ 38 X (十 1) 十 20 38 X (一 1) 
=— V19 
=— 0.052 6 


下 (玩家 下 注 黑色 数字 时 ,庄家 所 赢 筹码 ) =18 38 X (一 1) + 20 38 X (十 1) 


=V 19 
一 0. 052 6 


事实 上 ,不论 何 种 赌注 ,玩家 所 赢 筹码 的 期 望都 是 一 0.052 6 ,庄家 所 赢 筹 
码 的 期 望都 是 0. 052 6 ,读者 们 可 以 选择 其 他 类 型 的 赌注 自行 验证 。 

至 此 ,我 们 终于 看 清 了 大 转盘 的 本 来 面目 , 它 是 一 个 典型 的 “ 零 和 博弈 ”， 
庄家 赢 的 筹码 等 于 玩家 输 掉 的 筹码 ,平均 意义 上 看 ,玩家 每 下 注 1 个 筹码 ,就 
会 输 掉 0. 052 6 个 筹码 ,同时 庄家 会 赢得 0.052 6 个 筹码 。0. 052 6 看 起 来 很 


微小 ,这 正 是 庄家 想 要 的 效果 ,玩家 就 像 温 水 中 的 青蛙 ,沉浸 在 赌 
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局 中 , 却 不 为 


[l 


XF 


己 的 钱 正 在 像 沙漏 中 的 细 沙 一 样 , 缓 缓 地 流 进 了 庄家 的 钱 袋 。 


在 这 个 赌局 中 ,庄家 要 做 到 稳 赚 不 赔 , 就 要 满足 大 数 定理 实现 的 条 件 : K 
验 次 数 足够 多 。 因 此 ,庄家 会 想方设法 地 吸引 玩家 不 停 地 玩 下 去 ,玩家 越 是 沉 


Hy 


Ph ,庄家 赚 到 的 筹码 也 越 多 ,这 就 是 庄家 空手 套利 的 秘密 。 


大 转盘 示意 图 如 图 2-3 所 示 。 


1 到 18 
偶数 
红色 
黑色 
奇数 


19 到 36 


图 2-3 大 转盘 示意 图 


大 数 定理 的 误解 


接近 
说 明 


近 呢 


们 用 
出 现 


大 数 定型 


是 概率 论 中 最 重要 的 定理 ,同时 也 是 最 容易 被 误解 的 定理 。 


在 抛 硬 币 试验 中 ,我 们 发 现 , 正 面 出 现 的 频率 随 着 抛掷 次 数 的 增加 越 来 越 


0.5 并 上 
, 随 着 抛 
? 

在 回答 之 
X 表示 1 


. 越 来 越 稳定 ,这 是 大 数 定理 作用 于 其 中 的 结果 ,那么 ,这 是 否 也 
贿 次 数 的 增加 ,正面 出 现 的 次 数 和 反面 出 现 的 次 数 也 越 来 越 接 


前 ,我 们 需要 分 辨 两 个 数学 参量 一 一 相对 频率 和 绝对 频率 。 我 
: 面 出 现 的 次 数 ,Y 表示 反面 出 现 的 次 数 ,N 表示 抛掷 次 数 。 正 面 


的 相对 频率 是 指 XY (XHY) ,正面 出 现 的 绝对 频率 是 X 本 身 ,正面 与 反面 


出 现 次 数 的 绝对 频数 差 是 X 一 Y。 我 们 已 知 , 当 N 越 来 越 大 时 ,X(X 十 Y) 会 


趋 近 


于 0.5 时 ,此 时 XX 一 Y 是 否 也 趋 于 0 呢 ? 我 们 通过 实验 来 验证 。 
到 2-4 是 抛 毛 硬币 1 000 次 得 到 的 两 条 曲线 图 , 左 图 为 相对 频率 XY CX + 


Y) 与 抛掷 次 数 N 的 关系 曲线 , 右 图 为 绝对 频数 差 X 一 Y 与 抛掷 次 数 N 的 关系 
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曲线 。 右 图 中 , 随 着 N 的 增 大 ,X 一 Y 并 没有 越 来 越 趋 近 于 0, 仍然 变 化 不 定 。 
通过 这 个 反例 ,我 们 可 以 否定 “正面 出 现 次 数 与 反面 出 现 次 数 越 来 越 接 近 ” 的 
说 法 。 更 加 反 直 觉 的 结论 是 ,X GY 相等 的 概率 会 随 着 NN 的 增加 越 来 越 小 ! 
这 个 结论 会 在 “二 项 分 布 ” 一 节 中 做 出 解释 。 


相对 频率 绝对 频率 
1 30 
204 
104 
S 
$os 3 0 
= 
-104 
-24 
0 -30 
200 400 600 800 1000 200 400 600 800 1000 
N N 


2-4 抛掷 硬币 1 000 次 的 相对 频数 和 绝对 频数 差 


在 很 多 赌博 游戏 中 ,玩家 会 对 大 数 定理 保有 另 一 个 误解 : 如 果 反 复 进行 
的 试验 偏向 某 些 结果 ,那么 后 边 的 试验 结果 很 可 能 会 偏向 其 他 结果 。 举 个 例 
子 , 如 果 抛 硬币 10 次 ,正面 出 现 了 7 次 ,反面 出 现 了 3 次 ,下 一 次 抛掷 出 现 反 
i 的 概率 会 更 大 吗 ? 我 们 已 经 学 过 独立 事件 ,所 以 我 们 要 相信 ,概率 依然 是 
0%。 可 是 ,这 似乎 和 大 数 定理 矛盾 ,我 们 要 弥补 正面 与 反面 的 差 值 才能 让 正 
出 现 的 次 数 趋 于 0. 5 ,难道 不 是 吗 ? 

还 真 不 是 ! 事实 上 ,要 让 概率 趋 近 于 0. 5, 我 们 根本 不 需要 弥补 此 前 的 不 
均衡 。 举 一 个 极端 的 例子 ,假如 接 下 来 ,每 抛 10 次 ,都 会 出 现 5 次 正面 .5 次 反 
,那么 ,抛掷 20 次 时 ,正面 出 现 的 相对 频率 会 从 0.7 下 降 到 0. 6 ,再 抛 10 次 
会 下 降 到 0. 57 ,再 抛 10 次 会 下 降 到 0. 55, 以 此 类 推 , 越 来 越 趋 近 于 0. 5。 也 就 
是 说 ,只 要 硬币 一 直 随 机 出 现 正 反 两 面 ,大 数 定理 依然 成 立 , 根 本 不 需要 刻意 


a 
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弥补 此 前 的 空缺 ! 从 另 一 个 角度 来 看 , 随 着 抛 搓 次 数 的 逐渐 增加 ,前 10 次 的 
抛掷 结果 对 相对 频数 的 贡献 越 来 越 小 。 因 此 ,我 们 并 不 需要 弥补 这 个 小 小 的 
缺口 。 

总 之 ,大 数 定理 只 是 在 描述 随机 现象 的 规律 , 它 只 会 告诉 你 长 期 的 .平均 
的 情况 , 它 无 法 预测 未 来 。 
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导语 : 概率 和 统计 像 一 对 性 格 过 异 的 兄弟 ,概率 是 理想 主义 的 
“文艺 青年 ”; 统 计 是 务实 精干 的 “普通 青年 "。 概 率 喜 欢 提 出 很 多 “ 假 
设 ” 和 “8 近似”; 统计 则 只 顾 着 搜集 数据 ,分 析 数 据 ,寻找 数据 中 隐藏 的 


31 从 样本 到 总 体 : FF ais 


前 面 两 章 , 我 们 学 习 了 概率 的 基础 知识 ,本 章 我 们 一 起 来 认识 概率 的 亲 兄 


弟 一 一 统计 。 


如 果 说 概率 论 像 一 个 理想 主义 的 “文艺 青年 ”, 统 计 学 则 是 一 个 务实 精干 


的 “普通 青年 ”, 在 统计 学 中 没有 那么 多 “假设 "和 “近似 ”, 统 计 学 研究 实 实在 在 


的 数据 ,从 数据 中 发 现 规律 ,再 利 月 
学 的 基础 。 


规律 指导 我 们 的 行动 。 


因此 ,数据 是 统计 


在 统计 学 中 ,数据 被 自然 的 分 为 两 类 : 样本 与 总 体 。 举 个 例子 ,假设 味 多 
美 公司 刚刚 出 品 了 一 款 巧克力 莫 斯 蛋 糕 ,为 了 检验 这 款 蛋 糕 的 受 欢迎 程度 , 味 
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多 美 在 很 多 超市 里 举办 免费 试 吃 ,并 让 试 吃 者 填写 一 份 简单 的 调查 问卷 。 试 
吃 活动 进行 了 两 周 , 收 到 了 一 万 多 份 问卷 。 味 多 美 整理 分 析 了 这 些 调 查 问 卷 
的 内 容 , 针 对 不 同年 龄 .不同 性别 的 消费 者 各 自 进行 了 分 析 , 发 现年 轻 男性 十 
分 喜欢 这 款 蛋 糕 ,于 是 味 多 美 决定 ,到 中 关 村 和 理工 科大 学 去 推广 这 款 蛋 糕 。 
在 这 个 虚构 的 例子 中 , 味 多 美 公司 想 要 测试 新 款 蛋 糕 的 受 欢迎 程度 ,如 果 它 可 
以 让 所 有 消费 者 都 试 吃 一 次 ,那么 它 就 可 以 从 试 吃 结果 中 精确 地 找到 喜欢 这 
款 蛋 糕 的 人 群 ,这 么 做 成 本 高 的 离谱 ,显然 无 法 实现 。 于 是 它 退 而 求 其 次 , 挑 
选 几 个 超市 开展 试 吃 活动 ,吸引 一 部 分 消费 者 来 品尝 ,获得 他 们 的 反馈 。 从 统 
计 学 的 角度 来 看 “所 有 消费 者 的 反馈 ?是 总 体 ， 部 分 消费 者 的 反馈 ?是 样本 。 

总 体 , 是 指 一 个 试验 中 所 有 可 能 的 观察 值 。 这 些 观察 值 有 时 是 有 限 多 个 ， 
比如 全 校 学 生 的 身高 ;有 时 是 无 限 多 个 ,比如 宇宙 中 的 所 有 行星 ,统计 学 的 目 
标 是 研究 总 体 中 包含 的 统计 学 规律 。 然 而 ,总 体 往往 难以 全 部 获得 ,因此 ,我 
们 从 总 体 中 抽取 一 部 分 观察 值 ,通过 研究 它们 的 规律 推理 出 总 体 的 规律 ,这 部 
分 被 抽取 出 来 的 观察 值 就 是 样本 。 从 样本 推测 总 体 ,正如 管中窥豹 ,虽然 只 
“可 见 一 斑 ”, 却 依然 要 从 这 "一斑 ” 推 想 出 “全 药 ”。 


数据 会 说 谎 


前 面 我 们 提 到 ,数据 是 统计 学 的 基础 ,要 学 习 统计 学 ,首先 要 学 会 正确 地 
看 待 数 据 , 有 时 数据 是 会 说 谎 的 。 

有 这 样 一 个 思想 实验 。 很 久 很 久 以 前 ,有 一 个 原始 人 , 住 在 现在 的 北京 所 
在 的 地 方 。 他 每 天 早晨 从 山洞 里 跑 出 来 ,迎接 日 出 ,然后 出 去 捕猎 ,直到 太阳 
落 山 后 , 才 跑 回 山洞 里 睡觉 。 一 天 又 一 天 ,太阳 升 起 又 落下 ,每 天 晚上 入 睡 时 ， 
他 都 十 分 确信 ,明天 早晨 ,太阳 会 照常 升 起 。 在 另 一 个 地 方 , 一 个 特别 寒冷 的 
地 方 ,也 有 一 个 原始 人 。 他 的 头 上 一 直 悬 着 一 个 太阳 ,于 是 他 以 为 ,太阳 会 永 
远 发 光 。 忽 然 有 一 天 ,太阳 消失 了 , 消失 得 无 影 无 踪 , 刺 骨 的 寒冷 夺 去 了 他 的 
生命 。 直 到 死去 ,他 也 不 明白 ,太阳 究竟 去 哪儿 了 。 

两 个 原始 人 看 到 了 同一 个 太阳 , 却 对 太阳 的 认识 相去 甚 远 。 这 个 简单 的 
思想 实验 告诉 我 们 ,样本 的 规律 未 必 能 代表 总 体 的 规律 ,你 以 为 太阳 升 起 落下 
是 必然 规律 ,是 因为 你 没 去 过 北极 。 
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在 统计 学 中 ,由 片面 的 样本 推理 总 体 的 规律 往往 会 以 偏 概 全 ,这 种 现象 被 
称 为 “幸存 者 偏差 ”, 更 通俗 的 说 法 是 一 一 “死人 不 会 说 话 ”, 第 二 次 世界 大 战 时 
期 美国 战斗 机 的 故事 正 说 明了 这 一 点 。 

第 二 次 世界 大 战 时 期 ,美英 联军 出 动 大 量 战斗 机 ,对 德国 展开 大 规模 空 

袭 ,但 是 德军 强大 的 防空 火力 让 美英 联军 遭受 重创 。 为 了 对 抗 德军 的 防空 火 
力 ,美英 联军 找 来 了 飞机 领域 的 多 位 专家 ,要 求 他 们 研究 战斗 机 的 受 损 情 况 ， 
对 飞机 的 设计 制造 提出 改进 意见 。 飞 机 专家 们 对 执行 任务 归来 的 飞机 进行 了 
仔细 地 检查 ,发 现 几 乎 所 有 的 飞机 的 机 腹 都 伤痕 累累 ,于 是 专家 们 建议 ,加 辕 
机 腹 。 可 是 ,美英 联军 最 终 没有 采纳 飞机 专家 的 意见 ,反而 加 强 了 对 机 翼 的 防 
护 。 这 是 因为 ,国防 部 的 一 位 统计 学 家 认为 ,能 够 幸运 返航 的 飞机 ,机 愤 大 多 
完好 无 损 , 这 说 明 , 被 击 中 机 翼 的 飞机 都 坠落 了 ,而 仅 被 击 中 机 腹 的 飞机 却 能 
够 顺利 返航 ,说 明 机 腹 不 是 要 害 部 位 ,不 需要 进行 加 固 。 因 此 ,他 建议 美英 联 
军 加 强 对 机 翼 的 防护 。 
在 上 面 的 事例 中 ,飞机 学 家 由 于 缺少 统计 学 知识 , 错 把 顺利 返航 的 飞机 与 
被 击落 的 飞机 混为一谈 。 他 们 把 “顺利 返航 的 飞机 ”作为 样本 ,来 推测 总 体 的 
规律 ,恰恰 掉 入 了 "幸存 者 偏差 ?的 陷阱 中 。 反 观 统计 学 家 ,从 总 体 出 发 来 寻找 
规律 ,虽然 他 无 法 观察 到 被 击落 的 飞机 ,但 他 观察 顺利 返航 的 飞机 之 后 ,推测 
出 了 被 击落 的 飞机 可 能 的 受 损 情 况 ,进而 提出 加 固 建议 ,是 更 合理 的 解 题 思 
路 。 这 个 例子 除了 提醒 我 们 提防 “幸存 者 偏差 ”之 外 ,还 告诉 我 们 , 开 清 研究 对 
象 十 分 重要 ,被 击落 的 飞机 才 是 正确 的 研究 对 象 。 

另 有 一 类 数据 也 容易 混淆 视听 , 那 就 是 “小 概率 事件 ”相关 的 数据 。 小 概 
率 事 件 是 一 些 生 活 中 非常 稀有 但 切实 发 生 的 事件 ,最 常 听 到 的 就 是 彩票 中 大 
奖 和 被 雷 劈 。 小 概率 事件 的 发 生 概率 也 是 通过 数据 计算 出 来 的 ,比如 ,要 计算 
被 雷 劈 中 的 概率 ,只 需要 用 被 雷 劈 中 的 人 数 除 以 总 人 口 便 可 以 得 到 ,大 约 接近 
百 万 分 之 一 。 然 而 ,小 概率 事件 由 于 样本 十 分 稀少 ,往往 容易 出 现 大 幅 波动 ， 
引起 人 们 的 误解 。 

马 航 370 事故 让 空难 再 次 发 酵 成 一 个 热点 话题 ,在 民航 领域 ,衡量 民航 安 
全 的 重要 指标 是 致死 事故 率 , 它 是 指 每 一 百 万 次 航班 中 的 致死 事故 总 数 。 在 
20 世纪 后 半 叶 ,由 英国 和 法 国联 合 研制 的 协和 式 超 音速 客机 是 全 世界 最 安全 
的 客机 ,在 2000 年 7 月 的 空难 发 生前 ,协和 式 飞机 共 飞 行 了 约 八 万 次 ,从 未 发 
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生 过 致死 事故 ,因此 致死 事故 率 为 0, 与 之 同期 的 波音 737 飞机 ,飞行 了 约 一 亿 
五 百 万 次 ,致死 事故 率 为 0. 41。 然 而 ,2000 年 7 月 ,协和 式 飞机 不 慎 发 生 空 
难 , 仅 仅 这 一 次 空难 ,使 协和 式 飞 机 的 致死 事故 率 瞬间 升 至 12, 一 跃 成 为 全 球 
最 危险 的 飞机 ! 

另 一 个 例子 是 谋杀 率 。 谋 杀 率 是 衡量 一 个 国家 是 否 安全 的 重要 指标 , 在 
任何 一 个 长 期 稳定 的 国家 ,一 年 里 发 生 的 谋杀 案 都 很 少 ,在 13 (ZA E 
如 此 ,在 不 足 干 人 的 焚 蒂 冈 也 是 如 此 。 焚 蒂 冈 是 全 世界 人 口 最 少 的 独立 主权 
到 家 ,只 有 不 足 干 人 ,由 瑞士 卫队 保卫 国家 安全 。 多 年 来 , 焚 蒂 风 从 未 发 生 过 
谋杀 案件 ,直到 1998 年 5 月 4 日 晚 ,瑞士 卫队 队长 阿 洛 伊 斯 * 埃 斯 特 曼 和 妻子 
被 枪杀 。 这 一 晚 之 后 , 梦 蒂 冈 的 谋杀 率 瞬间 达到 五 百 分 之 一 ,领跑 全 球 谋杀 率 
排行 榜 , 成 为 全 世界 最 不 安全 的 国家 。 后 来 , 焚 带 冈 回 归 了 宁静 ,谋杀 率 也 重 
新 降 回 零 。 

小 概率 事件 总 是 很 少 发 生 ,由 数据 计算 出 的 发 生 概率 是 否 有 意义 ,值得 质 
疑 。 很 多 时 候 ,小 概率 事件 的 概率 只 是 新 闻 媒体 的 吐 头 。 从 概率 统计 的 角度 
来 看 , 它 只 能 告诉 我 们 ,这 件 事 很 少 发 生 。 


抽样 


前 面 我 们 提 到 ,从 总 体 中 抽取 一 部 分 可 以 获得 样本 。 在 统计 学 中 ,这 个 抽 
取 的 过 程 叫 作 抽 样 。 

抽样 有 自己 的 方法 ,最 简单 、 最 常用 的 抽样 方法 是 简单 随机 抽样 ,比如 味 
多 美 可 以 随机 挑选 几 个 地 方 举办 蛋糕 试 吃 活动 ,并 在 活动 过 程 中 随机 招揽 路 
人 来 试 吃 。 在 试 吃 活动 中 , 味 多 美的 服务 人 员 可 以 给 参加 试 吃 的 人 免费 发 放 
购物 袋 ,这 样 他 们 就 可 以 辨认 出 哪些 人 已 经 参加 过 试 吃 活动 ,不 再 招揽 他 们 参 
加 试 吃 ,这 就 是 不 重复 随机 抽样 。 如 果 味 多 美 放 任 所 有 人 试 吃 ,不 做 任何 筛选 
和 限制 ,就 是 重复 随机 抽样 。 

在 简单 随机 抽样 中 ,重复 抽样 和 不 重复 抽样 都 是 常见 的 抽样 方式 。 比 如 ， 
同样 是 福利 彩票 ,33 选 7 的 双色 球 采用 的 是 不 重复 抽样 ,排列 3、 排 列 5 采用 
的 是 重复 抽样 。 在 进行 数据 抽样 时 ,我 们 根据 事件 的 需要 选择 抽样 方式 。 

除了 简单 随机 抽样 ,还 有 其 他 几 种 抽样 方法 。 一 个 是 分 层 抽样 , 仍 以 味 多 
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美 为 例 , 服 务 人 员 可 以 分 别 邀 请 年 轻 女 性 、 年 轻 男性 和 儿童 参加 试 吃 活 动 ,也 
就 是 按照 年 龄 和 性 别 对 人 群 分 组 ,再 进行 抽样 ,这 就 是 分 层 抽样 ,也 可 以 理解 
为 先 分 组 再 抽样 ; 另 一 个 是 整 群 抽样 ,假定 新 款 的 蛋糕 有 草莓 樱桃 和 柱 果 三 
种 配搭 的 水 果 , 服 务 人 员 可 以 将 蛋糕 分 装 到 不 同 的 盒子 中 ,每 个 盒子 里 放置 草 
莓 、 樱 桃 和 柱 果 蛋糕 各 一 块 , 让 消费 者 们 整 盒 的 进行 试 吃 , 这 种 抽样 方法 便于 
对 比 , 从 对 比 结果 可 以 看 出 哪 种 口味 更 受 欢 迎 。 还 有 一 些 抽样 方法 ,本 书 不 再 
一 一 介绍 ,无 论 采用 什么 方法 ,我 们 的 终极 目标 都 是 采集 到 能 够 代表 总 体 的 
样本 。 

读 到 这 里 ,想必 读者 会 有 这 样 的 疑问 : 现在 都 是 大 数据 时 代 了 ,还 需要 抽 
样 吗 ? 诚然 ,在 互联 网 行业 里 ,抽样 的 概念 的 确 过 时 了 ,正如 《大 数据 时 代 》 一 
书 所 说 :“ 在 大 数据 时 代 进 行 抽样 分 析 就 像 在 汽车 时 代 骑 马 一 样 。” 在 互联 网 
行业 ,样本 几乎 就 是 总 体 ,谷歌 .苹果 和 淘宝 这 些 公司 甚至 不 需要 刻意 的 搜集 
数据 ,只 需要 利用 互联 网 软件 记录 下 人 们 在 手机 和 计算 机 上 的 每 一 次 触 碰 和 
点 击 , 便 完成 了 数据 采集 。 但 是 互联 网 不 能 代表 一 切 ,很 多 数据 并 不 能 从 互联 
网 上 搜集 ,比如 前 面 例子 中 提 到 的 试 吃 体验 数据 。 所 以 ,在 互联 网 力 所 不 及 的 
领域 ,采用 抽样 的 方法 搜集 数据 仍 是 必要 的 。 


ru 


32 频数 、 均 值 与 中 位 数 : 致敬 Me” 


2011 年 2 月 ,耐克 公司 推出 了 一 部 广告 电影 (科比 就 是 黑 曼 巴 》, NBA BR 
星 科比 * 布 莱 恩 特 从 此 得 到 了 一 个 新 绰号 一 一 黑 曼 巴 。 黑 曼 巴 蛇 属于 眼镜 蛇 
科 , 生 长 于 非洲 草原 和 林地 ,是 全 世界 最 致命 的 毒蛇 。 除 了 剧 毒 , 黑 曼 巴 还 拥 
有 闪电 般 的 速度 ,其 短 距离 移动 时 速 可 达 16 ~~ 20 公里 ,能 在 几 分 钟 内 杀 死 13 
个 围捕 者 ; 黑 曼 巴 喜欢 独居 ,仿佛 孤独 是 它 的 天 性 ; 黑 曼 巴 十 分 贪 禁 , 它 会 一 口 
把 猎物 吞 下 ,即使 是 最 难 消化 的 食物 也 会 在 几 小 时 内 消失 。 正 如 电影 片 名 所 
说 ,科比 就 是 黑 曼 巴 , 自 从 18 岁 加 入 NBA 联盟 起 ,科比 就 开始 展现 自己 “ 黑 曼 
巴 ” 的 天 性 ,他 突破 速度 极 快 ,能 够 单 场 独得 81 分 ,但 是 球 风 偏 独 ,常常 被 人 诉 
病 。 不 论 怎样 , 当 令 人 窒息 的 读 秒 阶段 到 来 时 ,科比 永远 是 执行 绝 杀 球 的 不 二 
人 选 , 这 时 的 科比 就 像 剧 毒 的 黑 曼 巴 , 随 时 会 在 红 灯 亮 起 前 给 予 对 手 致 命 
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oat 
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“最 接近 神 的 球员 ?是 科比 的 另 一 个 绰号 ，“ 神 ” 指 的 自然 是 “篮球 之 神 ” 迈 


尔 . 乔丹 。 在 科比 职业 生涯 的 识 峰 期 ,媒体 和 球迷 们 常常 拿 科 比 和 乔丹 做 


,他们 会 列 出 两 人 的 各 项 技术 统计 ,逐一 对 比 ,然后 写 出 一 篇 "科比 与 乔 
到 底 谁 更 强 ?的 软文 。 今 年 ,科比 将 正式 退役 ,全 世界 的 篮球 迷 们 都 必须 


对 他 二 十 年 的 职业 生涯 表达 敬意 。 接 下 来 ,我 们 抽取 科比 的 部 分 统计 数据 ,一 


起 来 学 习 三 个 常用 的 统计 量 一 一 频数 ,均值 和 中 位 数 。 


频数 


表 3-1 是 科比 2008 一 2009 赛季 常规 赛 的 每 场 得 分 数据 ,下 面 我 们 一 起 来 
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表 3-1 科比 2008 一 2009 赛季 常规 赛 每 场 得 分 数据 


23 32 22 26 
16 26 38 37 
33 28 30 23 
27 28 25 28 
23 41 61 11 
27 36 36 21 
20 26 26 28 
29 27 19 19 
21 31 34 30 
24 40 37 14 
29 26 10 17 
24 39 30 25 
12 21 39 30 
35 36 28 20 
23 19 36 18 
28 33 22 22 
32 29 29 33 
23 28 49 32 
20 20 31 16 
28 18 23 16 
18 11 
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通过 观察 ,我 们 可 以 找 出 最 大 值 为 61, 最 小 值 为 10。 我 们 想 知道 ,科比 的 
得 分 在 最 大 值 和 最 小 值 之 间 是 如 何 分 布 的 ,这 时 我 们 需要 制作 一 个 频数 分 布 
表 , 绘 制 一 张 直方 图 。 

我 们 将 最 小 值 到 最 大 值 之 间 划 分 为 6 个 小 范围 ,也 称 为 6 个 区 间 , 分 别 是 
10~20,21~30,31~40,41~50,51~ 60,61 ~70, Hit ABD 4 BAIS FE IX 6 
个 区 间 内 ,并 记录 下 来 , 便 得 到 了 如 表 3-2 所 示 的 频数 分 布 表 。 

表 3-2 科比 得 分 的 频数 分 布 表 


10~20 19 0. 232 19 
21~30 40 0. 488 59 
31~40 20 0. 244 79 
41~50 2 0, 024 81 
51~60 0 0. 000 81 
61~70 1 0. 012 82 


表 中 的 第 一 列 是 分 组 方式 ;第 二 列 是 频数 , 即 每 个 区 间 里 有 多 少 个 数据 ; 
第 三 列 是 相对 频数 , 即 频数 除 以 数据 总 量 ;第 四 列 是 累积 频数 , 即 对 频数 进行 
累积 计数 。 这 张 表格 包含 了 数据 分 析 的 三 个 重要 的 思路 : 一 是 分 类 统计 , 体 
现在 频数 中 , 即 把 数据 按照 某 种 属性 进行 分 类 计数 ;二 是 相对 数量 ,体现 在 相 
对 频数 中 ,相对 频数 的 本 质 是 将 频数 进行 “ 归 一 化 ”这样 便于 与 其 他 数据 进行 
对 比 ;三 是 累积 数量 统计 ,体现 在 累积 频数 中 ,对 数量 进行 累积 统计 便于 我 们 
观察 出 数量 的 变化 规律 ,也 便于 我 们 快速 找 出 低 于 或 高 于 某 些 临界 值 的 数据 
有 多 少 , 比 如 ,从 累积 频数 一 列 中 ,我 们 可 以 知道 , 低 于 30 分 的 有 59 场 , 低 于 
40 分 的 有 79 场 。 
图 3-1 是 科比 得 分 数据 的 直方 图 ,直方 图 与 频数 分 布 表 相对 应 ,是 通过 绘 
图 的 方式 更 直观 地 展现 频数 分 布 情况 ,直方 图 中 每 一 个 条 形 都 代表 一 个 分 组 ， 
条 形 的 高 度 代表 频数 。 频 数 分 布 表 和 直方 图 是 统计 学 中 的 常用 图 表 , 也 是 数 
据 分 析 的 第 一 步 。 


T 


均值 


平均 值 ,简称 均值 ,是 最 常用 的 统计 量 ,计算 方法 是 用 总 量 除 以 数量 。 例 
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得 分 直方 图 


3-1 科比 得 分 的 直方 图 


如 ,2015 年 我 国 的 国内 生产 总 值 GDP 为 67. 67 万 亿 元 ,我 国 同期 的 人 口 总 数 
约 为 13 亿 , 因 此 ,人 均 GDP 为 5. 2 万 元 。 表 3-3 是 科比 2008 一 2009 赛季 82 
场 常 规 赛 的 各 项 技术 统计 ,取出 其 中 的 一 列 数据 ,全 部 相 加 后 除 以 82, 便 可 以 
计算 出 科比 的 场 均 技术 统计 。 
表 3-3 科比 2008 一 2009 赛季 常规 赛 技术 统计 
场次 得 分 篮板 助攻 抢断 封 盖 失误 
1 23 11 5 1 0 5 
2 16 8 3 2 0 5 
3 33 4 3 2 0 1 
4 27 2 3 2 Zi 2 
5 23 3 3 2 2 4 
6 27 4 1 1 0 1 
7 20 4 6 0 0 2 
8 29 5 6 4 1 3 
9 21 5 6 3 2 1 
10 24 5 3 0 2 
11 29 4 2 a 0 1 
12 24 4 6 1 3 
13 12 6 4 1 0 0 
14 35 6 5 1 3 
15 23 5 7 1 0 3 
16 28 7 2 1 0 1 
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13 
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32 
23 


20 
28 
18 
32 
26 


28 
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27 
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26 
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36 


19 
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29 
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38 
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25 
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36 
26 


19 
34 
37 
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21 


22 
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24 


25 
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27 
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29 
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31 
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37 


38 
39 


40 
41 


42 
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续 表 
场次 得 分 篮板 助攻 抢断 封 盖 失误 
54 30 9 3 2 2 
55 39 5 $ 1 1 2 
56 28 6 7 1 0 6 
57 36 4 5 1 0 4 
58 22 4 8 3 0 1 
59 29 8 2 0 1 2 
60 49 11 2 1 1 1 
61 31 2 2 0 0 
62 23 2 4 1 0 1 
63 26 3 3 ï 1 
64 37 5 6 4 2 4 
65 23 4 6 0 1 2 
66 28 8 5 1 1 1 
67 11 5 5 4 0 5 
68 21 6 2 2 0 5 
69 28 3 7 5 1 3 
70 19 3 5 4 2 0 
71 30 8 z 2 0 1 
72 14 1 9 3 1 3 
73 17 8 4 1 0 4 
74 25 2 2 3 0 1 
75 30 8 4 3 0 4 
76 20 1 7 2 0 3 
a 18 4 5 i 1 2 
78 22 5 4 2 0 0 
79 33 3 2 1 0 2 
80 32 5 2 0 0 3 
81 16 4 2 1 1 
82 16 1 5 2 0 
场 均 26. 84 5. 23 4, 87 1, 46 0.45 2. 56 


例如 ,我 们 用 Xa 、Xs、…、Xs 分 别 表 示 科 比 82 场 比赛 的 篮板 数 ,那么 , 场 
均 篮板 数 X CELE X HOW 
X = (Xi +X: +++ Xey 82 一 (11 十 8 十 … 十 1X 82 = 5. 23 
EAH GDP 和 场 均 篮 板 数 的 例子 中 ,我 们 计算 的 平均 值 都 是 “算术 平均 
值 ”, 以 两 个 数 A 和 B 为 例 ,算术 平均 值 就 是 (A 十 BY 2。 统计 学 中 还 有 其 他 
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几 种 均值 ,分 别 是 几何 平均 值 `. 调 和 平均 值 和 均 方 根 值 。 

例如 ,股神 巴菲特 去 年 的 资产 增长 了 50%% ,今年 减少 了 4%% ,那么 ,这 两 年 
的 平均 增长 率 就 是 V1i.5X0.96 一 1. 2, 平 均 增长 率 是 20% ,这 就 是 几何 平均 
值 。 又 如 ,火车 从 北京 到 上 海 的 平均 时 速 是 200 公里 /小 时 ,从 上 海 到 北京 的 
时 速 是 300 公里 小 时 ,那么 ,来 回 的 平均 时 速 是 (1 200+ V 300) = 240 公 
里 /小 时 ,这 是 调和 平均 值 。 均 方 根 值 的 计算 方法 是 VCA? 十 BY?Y 2 ,在 标准 差 
的 计算 中 会 用 到 均 方 根 值 。 在 后 文中 , 如 无 特殊 说 明 , 均值 都 是 指 算术 平 
均值 。 

在 统计 学 中 ,计算 均值 往往 只 是 第 一 步 , 很 多 时 候 ,我 们 会 将 不 同 的 均值 
进行 比较 ,这 时 ,我们 一 定 要 小 心 “辛普森 悖 论 ” 的 陷阱 。“ 辛 普 森 悖 论 是 由 英 
国 统计 学 家 辛普森 发 现 的 ,这 个 悖 论 让 我 们 更 深刻 的 认识 和 修正 了 均值 比较 
的 方法 。 下 面 ,我 们 以 科比 和 乔丹 的 得 分 为 例 ,来 说 明 “ 辛 普 森 悖 论 ”。 

表 3-4 是 两 组 假想 的 得 分 数据 ,在 1996 一 1997 赛季 中 ,科比 由 于 肩 伤 只 打 
了 17 场 比 赛 ,乔丹 则 打 了 80 场 ,到 了 1997—1998 赛季 ,两 人 都 保持 健康 , F 
比 更 是 82 场 常规 赛 保持 全 勤 , 观察 两 人 的 场 均 得 分 可 以 发 现 ,这 两 个 赛季 乔 
丹 的 场 均 得 分 都 高 于 科比 ,毕竟 那 时 的 科比 还 是 个 毛 头 小 子 , 乔 丹 则 处 在 职业 
生涯 最 后 的 辉煌 时 期 。 我 们 的 问题 是 ,两 个 赛季 平均 下 来 , 谁 的 场 均 得 分 
更 多 ? 


F 


表 3-4 乔丹 和 科比 两 个 赛季 的 得 分 假设 值 


球员 总 得 分 场次 场 均 得 分 

乔丹 2 182 80 27.3 
1996—1997 赛季 

科比 440 17 25.9 

乔丹 2 832 80 35.4 
1997—1998 赛季 

科比 2 870 82 35.0 


每 个 赛季 都 是 乔丹 得 分 更 高 ,难道 两 个 赛季 加 在 一 起 ,乔丹 还 会 比 科比 
低 吗 ? 事实 告诉 我 们 ,乔丹 还 真 比 科比 低 。 如 表 3-5 所 示 , 乔 丹 两 个 赛季 的 
场 均 得 分 为 31. 3 ,而 科比 达到 了 33.4, 明 显 高 于 乔丹 ,这 就 是 反 直 觉 的 “ 辛 


普 森 悖 论 ”。 
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表 3-5 乔丹 和 科比 两 个 赛季 得 分 合计 


球员 总 得 分 场次 场 均 得 分 

乔丹 5 014 160 31.3 
两 个 赛季 合计 

科比 3 310 99 33.4 


“辛普森 悖 论 ” 出 现 的 关键 因素 是 科比 在 前 一 个 赛季 仅 出 战 17 场 , 相 比 于 
80 和 82,17 是 个 微不足道 的 小 数字 ,因此 , 当 两 个 赛季 的 得 分 相 加 后 取 均 值 
时 ,科比 前 一 个 赛季 的 得 分 数据 贡献 很 小 ,这 就 会 导致 悖 论 出 现 。 “辛普森 悖 
论 ” 提 醒 我 们 ,数据 量 相 同 或 相近 时 才 适 合 进行 均值 比较 ,否则 会 有 失 公 人 允 。 


中 位 数 与 箱 线 图 


中 位 数 与 箱 线 图 是 我 们 理解 数据 的 男 一 种 视角 , 接 下 来 ,我 们 用 中 位 数 和 
箱 线 图 来 分 析 科 比 2008 一 2009 赛季 常规 赛 的 得 分 数据 ,看 看 它们 与 均值 、 直 
方 图 有 什么 不 同 。 

中 位 数 , 顾 名 思 义 ,就 是 处 在 中 间 位 置 上 的 数字 。 要 找到 中 间 位 置 ,首先 
要 对 数据 进行 排序 。 表 3-6 是 经 过 排序 后 的 科比 得 分 数据 ,从 中 找到 排 在 中 
央 的 数据 , 便 是 中 位 数 。 如 果 有 81 个 数据 ,第 41 个 就 是 中 位 数 ,可 是 表 3-6 中 
有 82 个 数字 ,我们 需要 取 第 41 和 第 42 个 数 的 平均 值 作为 中 位 数 M: 
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续 表 
16 23 28 34 
16 23 28 35 
16 23 28 36 
17 23 28 36 
18 23 29 36 
18 24 29 36 
18 24 29 37 
19 25 29 37 
19 25 30 38 
19 26 30 39 
20 26 30 39 
20 26 30 40 
20 26 31 41 
20 26 31 49 
21 27 32 61 
21 27 
604 0 异常 值 
2 O 异常 值 
405 
Q3-21 
304 
M=27 
204 1 Q721 
S 
104 


图 3-2 科比 得 分 数据 的 箱 线 图 


在 箱 线 图 中 ,区 间 的 长 度 与 数据 的 分 散 程度 相关 ,比如 ,Min 到 Q 的 长 度 
是 11.Q 到 M 的 长 度 是 6,M 到 Qs 的 长 度 是 5,Q: 到 Max 的 长 度 是 29， 
此 ,M 到 Qs 区 间 内 ,数据 分 布 最 集中 ,其 次 是 Qi 到 M 的 区 间 ,数据 分 布 最 分 
散 的 区 间 是 Qs 到 Max. 
除了 表征 数据 的 分 散 程度 , 箱 线 图 还 可 以 帮助 我 们 寻找 疑似 异常 值 。 所 
谓 疑 似 异 常 值 是 指 过 大 或 过 小 的 数据 ,寻找 的 方法 是 : 首先 计算 四 分 位 数 
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差 IQR: 


IQR = Q: 一 Q = 32—21=11 
然后 找 出 小 于 Q —1. SIQR 和 大 于 Qs 十 1. SIQR 的 数字 ,这些 数字 就 是 疑 
似 异 常 值 。 


Qı — 1. 5IQR = 21—1.5 X11 = 4.5 
Q: +1. 5IQR = 32+1.5 X11 = 48.5 
49 和 61 大 于 48. 5, 所 以 是 疑似 异常 值 。 在 某 些 统计 分 析 问 题 中 ,疑似 异 
常 值 可 能 是 误差 数据 甚至 错误 数据 ,可 以 通过 上 述 方法 找 出 并 剔除 这 些 数据 ， 
然后 再 绘制 修正 后 的 箱 线 图 。 对 科比 的 得 分 数据 来 说 ,49 分 和 61 分 显然 不 是 
由 误差 或 错误 造成 的 ,恰恰 相反 ,这 些 “ 异 常 值 是“ 黑 曼 巴 ” 贪 禁 本 性 的 最 佳 
诠释 。 


33 方差 与 标准 差 : 致敬 马刺 


我 是 一 个 NBA 的 老 球迷 ,回首 将 近 20 年 的 看 球 生 涯 ,有 一 支 球 队 让 我 不 
得 不 叹服 ,今天 的 他 们 仿佛 从 20 年 前 穿越 而 来 ,“ 波 波 ” 还 是 那个 “ 波 波 ”,“ 石 
佛 ” 还 是 那 尊 “ 石 佛 ”, 在 其 他 球 队 经 历 大 起 大 落 的 20 年 里 ,他 们 稳 如 泰山 ,从 
不 动摇 ,你 可 以 不 喜欢 他 们 的 球 风 ,但 你 必须 尊重 他 们 的 坚守 ,他 们 是 圣 安 东 
尼 奥 马刺 队 。 

圣安东尼奥 位 于 美国 南部 得 克 萨 斯 州 ,与 达拉斯 和 休斯敦 并 称 得 州 三 大 
城市 。1970 年 “得克萨斯 橡木 队 ” 将 主场 移师 圣安东尼奥 ,并 更 名 为 “马刺 
队 ”, 马 刺 是 指 骑马 者 钉 在 鞋 跟 上 的 一 种 铁 制 的 刺 马 针 , 是 美国 西部 大 开发 的 
时 代 象 征 。 初 入 NBA 的 20 多 年 里 ,马刺 队 只 能 算是 个 不 温 不 火 的 小 角色 , 直 
到 1996—1997 赛季 ,这 个 赛季 马刺 队 糟糕 的 战绩 却 意 外 的 成 就 了 他 们 未 来 20 
年 的 辉煌 。 由 于 3 胜 15 ARREA Ja. BRA SHA TB AG > 波 波 维 奇 临危 受 
命 ,担任 球 队 主帅 ,随后 “凭借 ?糟糕 的 常规 赛 战绩 ,马刺 队 拿 到 了 头号 选秀 
权 , 蒂 姆 "邓肯 空降 圣 城 。 自 此 以 后 , 波 波 维 奇 与 邓肯 走 上 了 20 年 的 坚守 之 
路 。1998 一 1999 赛季 ,凭借 邓肯 与 大 卫 : 罗宾逊 的 内 线 “ 双 塔 ? 组 合 , 马 刺 队 奔 
得 队 史 第 一 座 冠 军 奖杯 ,2001 年 和 2002 年 “法 国 跑 车 ”托尼 帕克 和 “阿根廷 
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妖刀 ” 吉 诺 比 利 相继 加 盟 球 队 ,组 成 了 日 后 马刺 队 的 铁 三 角 “GDP 组 合 ”, 马 刺 
队 在 此 后 的 近 20 年 里 再 夺 四 次 总 冠军 ,他 们 永远 是 其 他 球 队 最 不 想 遭 遇 的 
对 手 。 

波 波 维 奇 教练 是 马刺 队 场 下 的 灵魂 ,他 秉承 欧洲 篮球 的 执教 理念 ,进攻 时 
强调 快速 转移 球 、 球 动人 动 ,防守 时 强调 持续 逼 抢 和 快速 补 位 ,再 加 上 波 波 维 
奇 的 空军 学 院 出 身 , 马 刺 队 位 然 是 一 支 训练 有 素 的 铁军 ,这 支 铁 军 的 挂帅 之 人 
非 邓 肯 莫 属 ! 邓肯 , 因 球 风 沉 稳 、 不 苟 言 笑 ,江湖 人 称 “ 石 佛 ”, 那 几 近 失传 的 
“45 打 板 投篮 ”最 能 体现 邓肯 朴实 无 华 的 球 风 ,扎实 的 脚步 移动 .稳定 的 中 距 
离 投 禾 和 遮 天 项 日 的 封 盖 都 是 邓肯 的 标签 。 本 赛季 ,绰号 “圣安东尼奥 养老 
院 ” 的 马刺 队 居 然 创造 了 队 史 常规 赛 胜 场 纪 录 , 即 将 年 满 40 岁 的 邓肯 能 否 在 
职业 生涯 谢幕 前 再 夺 总 冠军 ”我们 拭目以待 ! 


方差 与 标准 差 


马刺 队 的 稳定 令 人 惊叹 ,战绩 可 以 说 明 一 切 ,与 同样 在 近 20 年 夺 得 5 次 
总 冠军 的 湖人 队 相 比 ,最 能 说 明 马 刺 队 的 稳定 是 多 么 可 怕 。 表 3-7 是 马刺 队 
和 湖人 队 自 1998 年 以 来 的 历年 战绩 , 接 下 来 ,我 们 就 用 统计 学 的 方法 来 说 明 ， 
马刺 队 比 湖人 队 更 稳定 。 
表 3-7 马刺 队 和 湖人 队 的 历年 常规 赛 战绩 (1998 一 2015 年 ) 


马 刺 队 M 人 队 
赛季 | 胜 场 | 负 场 | | 季 后 赛 成 绩 | 胜 场 | 负 场 | BP | 季 后 赛 成 绩 


2014 一 2015 55 27 67.1 | 西部 首 轮 21 61 25.6 | 未 进 季 后 赛 
2013 一 2014 | 62 | 20 | 75.6 | 总 冠军 27 | 55 | 32.9 | 未 进 季 后 赛 
2012—2013 | 58 | 24 | 70.7 | 总 决赛 45 | 37 | 54.9 | 西部 首 轮 
2011—2012 | 50 16 75.8 | 西区 决赛 41 25 62.1 | 西部 半 决 赛 
2010—2011 | 61 | 21 | 74.4 | 西部 首 轮 57 | 25 | 69.5 | 西部 半 决 赛 
2009 一 2010 | 50 | 32 | 61.0 | 西区 半 决 赛 | 57 | 25 | 69.5 | 总 冠军 
2008 一 2009 54 28 65.9 | 西部 首 轮 65 17 79.3 | 总 冠军 
2007 一 2008 | 56 | 26 | 68.3 | 西区 决赛 57 | 25 | 69.5 | 总 决赛 
2006—2007 | 58 | 24 | 70.7 | 总 冠军 42 | 40 | 51.2 | 西部 首 轮 
2005 一 2006 | 63 | 19 | 76.8 | 西区 半 决 赛 | 45 | 37 | 54.9 | 西部 首 轮 


生 界 是 随机 的 一 大 数据 时 代 的 概率 统计 学 


马 刺 队 湖 人 队 
a Coy | RB RB 
2004—2005 59 | 23 72.0 34 48 41.5 | 未 进 季 后 赛 
2003 一 2004 57 25 69.5 区 半 决 赛 | 56 26 68.3 | 总 决赛 
2002 一 2003 60 | 22 73.2 50 | 32 61.0 | 西部 半 决 赛 
2001 一 2002 58 24 70.7 区 半 决 赛 | 58 24 70.7 | 总 冠军 
2000 一 2001 58 | 24 70.7 区 决赛 56 | 26 68.3 | 总 冠军 
1999 一 2000 | 53 | 29 | 64.6 | 西部 首 轮 67 15 81.7 | 总 冠军 


赛季 胜 场 | 负 场 季 后 赛 成 绩 | 胜 场 | 负 场 


al 
M 


E H i E ir 
a 
+i 


1998—1999 37 13 74.0 | 总 冠军 31 19 62.0 | 西部 半 决 赛 
平均 值 57.5 | 24.5 | 70.1 49.1 | 32.9 | 59.9 
标准 差 3.48 3.48| 4.24 13. 43| 13.43| 16.38 


在 表 3-7 的 数据 中 ,1998 一 1999 赛季 和 2011 一 2012 赛季 是 两 个 缩水 的 赛 
季 , 比 赛场 次 较 少 ,为 了 避免 掉 入 "辛普森 悖 论 ” 的 陷阱 ,我 们 将 这 两 行 数据 排 
除 在 外 (以 深 色 标记 ) ,其 余 赛季 的 总 场次 都 是 82 场 ,因此 ,胜率 可 以 进行 对 比 
和 加 减 运算 。 

我 们 首先 计算 两 支 球 队 的 平均 胜率 ,X 和 Y 分 别 代 表 马 刺 队 和 湖人 队 。 
马刺 队 平均 胜率 京王 (67.1% + 75.6% + +64.6%Y 15 = 70.1% 
湖人 队 平 均 胜 率 立 = (25.6% +32.9% + +81.7%Y 15 = 59.9% 

读者 还 可 以 试 着 画 一 画 两 队 胜率 的 直方 图 和 箱 线 图 ,不 论 怎样 ,我 们 都 必 

须 承 认 , 马 刺 队 的 成 绩 总 体 上 优 于 湖人 队 。 接 下 来 ,我 们 算 一 算 马 刺 队 到 底 有 
多 稳定 。 
方差 和 标准 差 是 统计 学 中 用 于 描述 数据 发 散 程度 的 统计 量 , 假 设 有 数据 
Xi =1 和 Xz 二 3, 均 值 为 XX 二 2, 那 么 ,方差 为 : 
Var(X) = ((X, -X> 4+ (Xs —X)?) 2 一 [(1 一 2)2 十 (3 一 2)2?Y 2 一 1 
标准 差 为 


o(X) = VVar(X) = 1 
URE n SBOE X1~X, ,均值 为 下 , 则 方差 为 
Var(X) =[(X —X)? + (Xs — X) + + (KX, —X)? Vn 
标准 差 为 
o(X) = V(X: — X24 (XK -X> + EX, — X) Yn 
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利用 上 面 的 公式 ,可 以 计算 出 马刺 队 和 湖人 队 的 胜率 方差 和 标准 差 : 
马刺 队 胜 率 方差 Var (X) 一 [(67. 1% — 70. 1%)? + + + (64. 6% 


70.1%)? y 15=0.18%; 
马刺 队 胜率 标准 差 vcCX) 王 4.24%%， 


59.9%)? V 15=2. 68%; 
THA DHE RHE ZE o Y) = 16. 38%. 


马刺 队 的 平均 胜率 是 70. 1% ,标准 差 是 
湖人 队 的 平均 胜率 是 59. 9% ,标准 差 是 
在 统计 学 中 ,标准 差 越 小 代表 数据 的 分 


湖人 队 胜 率 方差 Var (CY) 王 [(25. 6% — 59. 9%)? += + (81. 7% 


标准 差 与 均值 有 相同 的 单位 ,是 可 以 比较 的 ,因此 ,综合 来 看 ， 


4.24%; 
16. 38%。 
布 越 集中 于 均值 附近 。 马 刺 队 的 


胜率 标准 差 远 小 于 湖人 队 ,意味 着 他 们 的 胜率 更 集中 的 分 布 在 均值 周围 ,这 便 


是 马刺 队 令 全 联盟 生 晨 的 稳定 性 。 


34 均值 与 方差 估计 : 近 射 与 狙击 


枪 是 很 多 儿童 的 最 爱 , 手 握 玩 具 枪 ,扮演 和 警察 反 朱 “biu” 的 一 枪击 毙 坏 
蛋 , 是 儿童 永远 玩 儿 不 腻 的 游戏 。 我 国 禁止 枪支 买卖 ,因此 大 多 数 人 都 没有 机 


会 摸 枪 ,最 多 是 在 大 学 的 军训 课 上 匆匆 扣 几 


次 扳机 了 事 。 我 曾 在 大 学 里 选修 


射击 课 , 练 习 过 手枪 和 步枪 射击 ,因此 对 射击 有 了 更 多 的 体验 。 


射击 从 目标 距离 上 大 致 分 为 两 类 : 一 类 是 近 距 离 射 击 , 一 般 使 用 手枪 ; 另 


一 类 是 远 距离 狙击 ,一般 使 用 步枪 或 狙击 枪 。 不 管 是 哪 一 类 射击 ,最 要 紧 的 就 
是 一 个 字 一 一 准 。 要 射 得 准 , 先 要 瞄 得 准 。 瞄 准 有 方法 和 经 验 可 循 , 近 距离 的 
手枪 射击 ,只 要 保持 手 型 端正 ,按照 三 点 一 线 ” 的 要 求 ,把 缺口 .准星 和 目标 点 


连 成 一 条 线 便 可 以 ;100 KASS Ae St oe Be A 


f 枪 射击 , 仅 靠 “三 点 一 线 ” 是 不 够 


的 ,瞄准 时 ,我 们 不 能 把 靶 心 10 环 设 为 目标 点 ,而 是 要 把 下 8 环 甚至 下 7 环 设 
为 目标 点 ,这 样 才能 射 中 靶 心 ,这 是 对 教科 书 的 合理 校正 。 
在 统计 学 中 , 常 要 通过 样本 来 估计 总 体 的 均值 和 方差 ,这 两 种 估计 也 都 讲 
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究 一 个 “ 准 ” 字 ,统计 学 中 称 之 为 “无 偏 ”, 二 者 的 估计 方法 并 不 相同 ,与 近 距 离 
射击 和 远 距 离 狙 击 有 异曲同工 之 妙 。 

K 3-8 所 示 是 科比 82 场 常规 赛 得 分 数据 的 样本 和 总 体 ,我 们 以 表 中 数据 
为 例 , 说 明 样 本 对 总 体 的 均值 和 方差 估计 。 


表 3-8 科比 得 分 数据 的 总 体 和 样本 


样本 数据 总 体 数 据 
11 10 21 27 32 
16 11 22 28 32 
18 11 22 28 33 
19 12 22 28 33 
20 14 23 28 33 
22 16 23 28 34 
23 16 23 28 35 
23 16 23 28 36 
25 17 23 28 36 
26 18 23 29 36 
28 18 24 29 36 
28 18 24 29 37 
29 19 25 29 37 
30 19 25 30 38 
31 19 26 30 39 
33 20 26 30 39 
35 20 26 30 40 
36 20 26 31 41 
39 20 26 31 49 
41 21 27 32 61 
21 27 


样本 共有 20 个 数据 , 记 为 Xi Xaoo Xa ,总 体 共 有 82 个 数据 , 记 为 Yi， 
Ya Yasz。 

首先 来 看 总 体 均值 估计 。 

样本 是 一 个 “迷你 版 ”的 总 体 ,只 要 采样 足够 随机 ,样本 应 与 总 体 有 相似 的 
分 布 特征 ,因此 ,我 们 可 以 用 样本 的 均值 来 估计 总 体 的 均值 。 

在 本 例 中 ,样本 均值 为 


X = (Xı +X: +- + Xoy 20 = 26. 65 


066 


第 3 章 统计 


总 体 均值 记 为 w, 其 估计 值 记 为 飞 , 因 此 有 
f= X = 26.65 
实际 上 ,总 体 均值 为 
w= (Yi 二 Ys 二 +… 二 Ye) 82 = 26. 84 

FAY WAL p UD po 很 接近 。 用 样本 均值 估计 总 体 均 值 与 手枪 近 射 类 似 , 瞄 哪 儿 
打 哪 儿 。 

再 来 看 总 体 方差 估计 。 

前 面 我 们 提 到 ,样本 应 与 总 体 有 相似 的 分 布 特征 ,因此 我 们 自然 认为 , 样 
本 的 方差 也 应 该 代表 总 体 的 方差 。 

在 本 例 中 ,样本 方差 为 

Var(X) 一 [(X — X) +(X: —X)? ++ + (Xm — X’) Y 20 = 59.12 
UAT AE i Wo? HHEH 6? ,按照 我 们 此 前 的 推理 ， 
& = Var(X) = 59.12 


实际 上 ,总 体 方差 为 
ò = [Y 9) +Y: L ++ Wa Y 82 = 72, 23 

WY SL a? kbo Rhio AIER ER, E EMR E D EEE 
比 总 体 方差 要 小 一 点 。 可 是 ,“ 一 点 ”是 多 少 呢 ? 这 很 难说 得 清 , 但 统计 学 家 们 
还 是 找到 了 弥补 这 “一 点 ”的 方法 : 把 样本 方差 计算 公式 中 的 分 母 变 由 变 为 
n 一 1, 使 样本 方差 变 大 "一 点 ”。 

经 过 修正 后 的 方差 称 为 无 偏方 差 , 记 为 S ,例子 中 样本 的 无 偏方 差 为 

S 一 [(X — X) + (X2 — X) ++ + (Xoo — X)’ Y (20 —1) = 62. 24 

相 比 于 修正 之 前 ,无 偏方 差 更 接近 总 体 方差 。 用 S 来 估计 总 体 方差 与 远 
距离 狙击 类 似 ,都 要 做 出 适量 的 校正 。 

看 到 这 里 ,读者 很 可 能 会 有 这 样 的 疑问 : 为 什么 不 是 n 一 2,n 一 3? 

单 从 这 个 例子 来 看 , 取 n 一 2 或 n 一 3 都 比 n 一 1 的 估计 效果 更 好 ,但 这 只 
是 一 个 特例 。 采 用 S? 来 估计 总 体 方差 并 非 经 验 式 修正 ,是 有 数学 理论 依据 
的 , 感 兴趣 的 读者 可 以 参考 概率 统计 的 专业 书籍 。 

这 里 需要 说 明 的 是 ,上 一 节 中 ,我 们 并 没有 把 胜率 数据 看 作 样 本 ,因此 没 
有 使 用 修正 后 的 方差 公式 。 对 一 组 独立 数据 来 说 ,方差 就 是 Var ,不 是 S*。 如 
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果 你 把 数据 看 作 总 体 的 样本 ,方差 就 是 S? ,这 两 者 的 区 别 读者 一 定 要 留心 。 
最 后 ,总 结 一 下 均值 和 方差 估计 。 
W Xi ,Xs，…,X, 是 来 自 总 体 的 样本 ,那么 ,总 体 的 均值 和 方差 的 无 偏 估计 


分 别 是 


B= (Xi +X +X, Yn 


a” = [X-X + (XK. — X) ++ (XK, — XV (2 一 1) 
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导语 :“ 小 九 九 "是 乘法 运算 的 本 源 ,千变万化 的 乘法 运算 都 是 
从 "小 九 九 ?演化 而 来 的 。 概 率 分 布 就 像 概 率 统计 的 “小 九 九 ”, 它 可 
以 帮助 我 们 解决 很 多 常见 的 概率 统计 问题 , 既 简 洁 又 高 效 。 


41 分 布 : 统计 学 的 外 九 九 ” 


不 管 喜 不 喜欢 数学 课 ,你 一 定 记 得 “小 九 九 ”, 你 一 定 知道 “一 一 得 一 ,一 二 
得 二 ”和 * 九 九 八 十 一 ”。“ 小 九 九 ” 是 学 习 乘法 的 第 一 课 , 也 是 最 重要 的 乘法 
诀 。 常 言 道 :“ 万 变 不 离 其 宗 "“ 小 九 九 " 便 是 乘法 之 “ 宗 ”, 干 变 万 化 的 乘法 运 
算 都 是 从 “小 九 九 ”演化 而 来 的 。 

统计 学 也 有 自己 的 “小 九 九 ”, 它 不 是 一 个 口诀 ,而 是 从 很 多 典型 概率 问题 
中 总 结 出 的 经 验 , 我 们 称 为 概率 分 布 ,简称 分 布 。 

分 布 是 随机 变量 的 取 值 与 其 对 应 概率 的 关系 。 例 如 , 抛 硬币 试验 中 , 设 反 
面 为 0, 正面 为 1, 随机 变量 X 为 抛 出 硬币 的 数值 ,X 的 分 布 如 表 4-1 所 示 。 又 
如 , 掷 仍 子 试验 中 ,随机 变量 Y 为 掷 出 的 点 数 ,Y 的 分 布 如 表 4-2 所 示 。 表 4-1 
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和 表 4-2 就 是 随机 变量 的 分 布 ,利用 分 布 ,可 以 计算 出 随机 变量 的 期 望 和 


方差 。 


R41 抛 硬币 试验 中 随机 变量 X 的 分 布 


X 取 值 概率 
0 V2 
1 v2 


R42 MRFRGPMMLARY 的 分 布 


one uwong 


V6 
V6 
V6 
V6 
V6 
V6 


统计 学 家 可 不 想 一 个 个 地 列 出 随机 变量 的 分 布 ,他 们 要 对 随机 变量 归 类 ， 
计算 出 同一 类 随机 变量 的 分 布 . 期 望 和 方差 。 对 上 面 的 两 个 例子 来 说 , 抛 硬币 
和 掷 仍 子 都 属于 等 概率 分 布 , 即 随机 变量 每 个 取 值 的 概率 都 相等 。 如 果 我 们 
知道 了 等 概率 分 布 的 计算 公式 ,就 不 需要 列表 格 了 ,直接 做 个 "伸手 党 ”, 套 用 
公式 就 可 以 了 ,这 就 是 统计 学 家 研究 分 布 的 原因 ,也 是 我 们 学 习 分 布 的 原因 。 

在 开始 学 习 分 布 之 前 ,再 次 提醒 读者 ,随机 变量 分 离散 和 连续 两 类 ,分 别 
对 应 离散 分 布 和 连续 分 布 。 虽 然 本 书 前 面 的 内 容 都 是 有 关 离 散 随机 变量 的 ， 


但 是 连续 随机 变量 和 连续 分 布 在 概率 统计 中 也 占有 重要 地 位 。 因 


离散 分 布 和 连续 分 布 都 是 需要 我 们 学 习 的 。 
下 面 ,我 们 就 一 起 来 学 习 常 用 的 几 种 概率 分 布 。 


42 等 概率 分 布 : 硬币 的 两 面 


此 ,常用 的 


抛 硬币 是 概率 论 中 最 常见 的 随机 试验 ,不 仅 因为 硬币 很 常见 ,也 因为 抛 硬 
币 试 验 中 ,随机 变量 的 分 布 是 最 简单 的 等 概率 分 布 。 
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等 概率 分 布 ,顾名思义 ,就 是 随机 变量 每 一 个 取 值 的 出 现 概率 都 相等 。 在 
概率 论 的 发 展 初期 ,等 概率 分 布 是 主要 研究 对 象 , 后 人 也 把 与 抛 硬 币 、 掷 山子 
相似 的 随机 试验 称 为 古典 概 型 ”。 下 面 , 我 们 使 用 "从 特殊 到 一 般 ” 的 归纳 思 

以 抛 硬币 为 例 ,反面 记 为 0, 正面 记 为 1, 随 机 变量 X 为 抛 硬 币 一 次 的 得 
分 ,那么 ,X 的 分 布 可 以 写 为 


L, k=0 
PX ==), 
J. ksi 
X 的 期 望 是 
EX) = 0X P(X =0)+1X P(X =D) =V2 
X 的 方差 是 


Var(X) =P(X = 0) XD- EX) + P(X = D xX [1 - ECO] 
={fO-E(OP +0 -EQO Py 2 
FELASA Bil ELBE HEY HRA ABE BC BZ. YOST VA 


L ge 
6 k=1 
I p 
6” k=2 
es 
6” k=3 
P(Y =k) = i 
言 ， 4 一 4 
HL 
5’ k=5 
i g= 
6° k=6 


Y 的 期 望 是 
EY) =1 X PY = 1) +2 P(Y = 2) ++ +6X P(Y = 6) 
= 2 oF 6/6 = 3.9 
Y 的 方差 是 
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Var(Y) =P(Y = 1) X [1— E(Y)]' + PY = 2) x [2— EY) ] += + 
PY = 6) x [6— EY) ]’ 
{L1-E(Y) 2? +[2-E(@)]?+-+[6-EM]y 6 
我 们 仔细 观察 上 面 的 分 布 和 期 望 ,方差 计算 公式 ,可 以 从 这 些 个 例 中 归纳 
出 等 概率 分 布 的 通用 表达 。 
随机 变量 X An 个 取 值 4a1,as,…,a,, 每 个 取 值 出 现 的 概率 相等 ,那么 , 随 
机 变量 X 的 分 布 可 以 记 为 
P(X=a)= Vn, k=1,2,.,n 


E(X) = (a1 +a: ++ +a,/n = San 
Var(X) = {[a — E(X)]? +[a2 — E(X]? + + Lan EWO Yn 
= Mla 一 ECX)]Ym 
GÈ: >) 是 求 和 符号 ,表示 对 的 不 同 取 值 求 和 。)》 
上 面 的 三 个 公式 便 是 等 概率 分 布 的 分 布 、 期 望 和 方差 的 计算 公式 ,再 次 遇 
到 等 概率 分 布 的 问题 时 ,我 们 可 以 直接 使 用 这 些 公式 来 计算 分 布 .期 望 和 
方差 。 


等 概率 的 陷阱 


等 概率 分 布 是 最 简单 的 概率 分 布 ,看 似 简单 的 表象 下 , 却 隐 藏 着 思维 
陷阱 。 
此 前 抛 硬 币 的 例子 只 提 到 了 抛掷 硬币 一 次 ,如 果 抛 固 多 次 会 怎样 吧 ? 下 
,请 用 最 快 的 速度 回答 下 面 的 问题 : 
抛掷 硬币 10 次 ,“ 正 正 正 正 正 正 正 正 正 正 ” 与 “ 正 正 反 正 反 反正 反正 反 ” 哪 
一 个 更 可 能 出 现 ? 
你 的 直觉 很 可 能 是 : 后 者 更 可 能 出 现 。 而 正确 答案 是 : 两 种 情况 出 现 的 
可 能 性 是 一 样 的 ,都 是 (Y 2)”。 其 实 , 大 多 数 人 都 会 有 这 样 的 错觉 ; 十 次 全 是 
正面 ,这 太 特 殊 了 ,不 太 可 能 出 现 。 这 种 错觉 很 可 能 导致 你 的 错 判 一 一 认为 后 
一 种 情况 更 可 能 出 现 , 因 为 它 看 起 来 更 “正常 *。 这 里 必须 提醒 读者 ,假如 我 们 
要 严 并 地 思考 一 个 与 概率 有 关 的 问题 , 干 万 不 要 相信 感觉 ,最 靠 谱 的 方法 是 动 
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笔算 一 算 。 

估计 上 面 的 陷阱 并 没有 把 你 骗 进 去 , 下面 我 们 来 看 一 个 逻辑 悖 论 一 一 钱 
BL. 

假设 你 的 面前 有 两 个 钱包 ,其 中 一 个 钱包 里 的 钱 是 另 一 个 的 两 倍 。 你 随 
机 选择 一 个 钱包 ,打开 它 , 发 现 里 边 装着 100 元 ,请 问 ,你 是 决定 留 下 这 个 钱包 
还 是 丢 下 它 选择 另 一 个 钱包 呢 ? 

如 果 仅 赁 直觉 ,大 多 数 人 会 为 了 得 到 200 元 选择 另 一 个 钱包 。 巧 合 的 是 ， 
这 一 次 概率 论 和 我 们 的 直觉 不 谋 而 合 。 我 们 不 知道 另 一 个 钱包 里 是 200 元 还 
是 50 元 ,所 以 ,这 两 种 情况 出 现 的 可 能 性 各 为 VV 2, 所 以 ,换钱 包 的 收益 其 
BE: 

(— 50) X V 2 +100 X 1 2 = 25( 元 ) 

的 确 是 正 数 ! 赶紧 换钱 包 吧 ! 

等 等 , 先 别 着 急 数 钱 ,回想 一 下 这 个 游戏 ,一 个 非常 有 趣 的 局 面 出 现 了 。 
上 述 逻 辑 可 以 简化 为 : 不 论 第 一 个 钱包 里 装 了 多 少 钱 ,你 都 会 选择 男 一 个 钱 
包 。 言 外 之 意 ,你 根本 不 需要 打开 第 一 个 钱包 ,只 要 随机 选 一 个 ,然后 换 第 二 
个 就 可 以 了 ,可 是 ,这 跟 直 接 选 第 二 个 难道 不 一 样 吗 ? 更 让 人 抓 狂 的 是 ,一 且 
你 打开 了 第 二 个 钱包 ,这 个 钱包 就 变 成 了 你 随机 选 的 第 一 个 钱包 了 ,于 是 ,你 
决定 换 回 第 一 个 钱包 。 

莫非 是 打开 的 方式 不 对 ? 

第 一 次 的 选择 到 底 有 没有 意义 ? 

如 果 我 永远 不 打开 钱包 , 岂 不 是 要 永远 换 下 去 ,而且 越 换 赚 的 钱 越 多 1? 

别 再 纠结 这 些 问题 了 ,其 实 我 们 刚 开始 便 犯 了 一 个 致命 的 错误 一 一 认为 
未 知 的 情况 都 是 等 概率 出 现 的 。 题目 里 说 ,一 个 钱包 里 的 钱 是 男 一 个 的 两 倍 ， 
可 是 ,这 并 非 意味 着 200 元 和 50 元 出 现 的 概率 相同 ,我 们 “不 知道 ”它们 出 现 
的 概率 是 多 少 , 并 不 代表 它们 出 现 的 概率 相同 ,事实 上 ,这 里 根本 就 不 存在 概 
率 ,不 能 用 概率 来 解释 ! 

最 后 ,我 们 换 一 种 方式 描述 这 个 悖 论 : 你 的 面前 有 两 个 钱包 ,一 个 钱包 
里 有 A 元 , 另 一 个 有 2A 元 ,你 随机 选择 一 个 ,打开 ,然后 选择 另 一 个 钱包 。 
这 时 ,你 得 到 A 元 和 失去 A 元 的 概率 是 相等 的 。 这 才 是 两 个 钱包 正确 的 打 
TA 
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43 几何 分 布 : 一 次 就 好 


一 次 就 好 我 带 你 去 看 天 荒地 老 
在 阳光 灿烂 的 日 子 里 开怀 大 笑 
在 自由 自在 的 空气 里 吵吵 阅 六 
你 可 知道 我 唯一 的 想 要 
杨宗纬 (一 次 就 好 》 


2015 年 开心 麻花 出 品 了 电影 处 女 作 《 夏 洛 特 烦恼 》《 一 次 就 好 》 是 夏 洛 追 
求 校 花 时 唱 起 的 情歌 “一 次 就 好 ?让 人 既 温暖 又 哪 量 ,可 是 ,追求 心爱 的 人 从 
来 都 不 会 一 帆 风 顺 , 只 有 不 断 尝试 , 越 挫 越 勇 ,才能 收获 爱情 。 

有 一 个 很 特别 的 分 布 , 叫 作 几何 分 布 ,这 个 分 布告 诉 人 们 ,什么 时 候 才能 

仍 以 抛 硬币 为 例 ,已 知 出 现 正 反 两 面 的 概率 各 为 V 2, 在 反复 抛掷 的 过 程 
中 ,我 们 设 定 随机 变量 X 表示 第 一 次 出 现 反面 时 抛掷 硬币 的 次 数 ,我 们 列 出 
的 概率 分 布 ,如 表 4-3 所 示 。 


表 4-3 第 一 次 出 现 反 面 时 抛掷 硬币 的 次 数 X 的 分 布 


P(X) 


y2 

(V 2)xX(Y 2)=Y 4 

(VY 2)xX(Y 2)xX(Y 2)=V 8 

(V 2)X(V 2) X(V 2) X(V 2)=V 16 


1 
2 
3 
4 


P(X =k) = (V 2} X (V 2), k=1,2,3,. 
式 中 ,(Y 20° RRA k1 次 都 是 正面 , 乘 号 后 边 的 Y 2 表示 第 & 次 是 反面 。 
这 个 例子 有 些 特殊 ,因为 正面 和 反面 出 现 的 概率 相同 ,如 果 不 相同 会 怎样 
呢 ? 我 们 以 角 子 游戏 为 例 。 
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已 知 角 子 有 六 种 点 数 ,每 个 点 数 出 现 的 概率 都 是 6, 反 复 抛掷 骨 子 , 设 定 
随机 变量 Y 表示 第 一 次 出 现 六 点 时 抛掷 山子 的 次 数 ,我 们 列 出 Y 的 概率 分 布 ， 
如 表 4-4 所 示 。 


表 44 第 一 次 出 现 六 点 时 抛掷 山 子 的 次 数 Y 的 分 布 


4 PSyy 


V6 

CY 6)X( 6)=5 36 

CY 6) X CY 6) X(V 6) =2Y 216 

CY 6) X CY 6) X CY 6) X (VY 6) =12Y 1 296 


Dm ewe 


用 数学 公式 来 表达 为 
PCY =k) = (7 6) XUW 6); k= 1,2,3; 

式 中 ,(5 OT RRA R—-1 次 都 不 是 六 点 ,V6 表示 第 & 次 是 六 点 。 

透 过 两 个 例子 ,我 们 可 以 归纳 出 几何 分 布 的 通用 表达 。 

设 随机 试验 有 且 只 有 两 种 结果 A 和 B,A 出 现 的 概率 是 p,B 出 现 的 概率 
是 1 一 p, 反 复 进行 该 随机 试验 ,随机 试验 之 间 彼 此 独立 ,随机 变量 X 表示 A 第 
一 次 出 现时 随机 试验 进行 的 次 数 ,此 时 我 们 称 随机 变量 X 服从 几何 分 布 : 

P(X =k) =(1—p)** + p, k=1,23 

到 4-1 是 几何 分 布 的 概率 分 布 图 ,从 图 中 可 以 明显 地 看 出 ,虽然 X 的 取 
值 有 无 穷 多 个 ,但 是 X=1 的 概率 是 最 大 的 ,也 就 是 说 ,1 次 成 功 的 可 能 性 
最 大 。 

几何 分 布 是 一 个 无 限 可 列 的 概率 分 布 , 要 计算 它 的 期 望 和 方差 需要 使 用 
一 些 数 列 求 和 的 计算 技巧 ,我 们 不 细 究 这 些 计 算 技 巧 ,直接 给 出 几何 分 布 的 期 
望 和 方差 。 


E(X) =Vp 
Var(X) = (1— py 加 
几何 分 布 的 期 望 与 我 们 的 直觉 不 谋 而 合 。 比 如 ,硬币 出 现 反面 的 概率 是 
V 2 ,那么 平均 意义 上 需要 抛 2 次 才 会 出 现 反 面 ; 仍 子 的 六 点 出 现 的 概率 是 
V 6, 那 么 平均 意义 上 需要 掷 6 次 才能 出 现 六 点 ;中 一 次 彩票 大 奖 的 概率 是 百 
万 分 之 一 ,那么 平均 意义 上 需要 买 一 百 万 次 才能 中 一 次 大 奖 。 
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p=1/4 


0.15 


0.05 


AT 


1 2 3 4 5 6 7 
k 


woe 


4-1 几何 分 布 


几何 分 布 只 适用 于 反复 进行 的 独立 试验 ,这 一 点 很 容易 被 人 们 忽视 ,我 们 
用 两 个 例子 来 说 明 。 

例 1: 选手 A 参加 “一 站 到 底 ” 的 选拔 考试 ,题目 分 三 类 ,历史 类 、 体 育 类 和 
文学 类 ,每 一 轮 答题 ,A 要 从 三 类 题目 的 混合 题库 中 随机 抽取 一 道 题 作答 。 假 
Be A 只 擅长 历史 类 问题 ,那么 ,A 答对 第 一 道 题 平均 需要 多 少 轮 ? 

例 2: 选手 A 参加 “一 站 到 底 ” 的 选拔 考试 ,题库 只 有 三 个 问题 ,分 别 属于 
历史 类 、 体 育 类 和 文学 类 ,每 一 轮 答题 ,A 要 从 三 个 问题 中 随机 抽取 一 个 作答 ， 
作答 后 该 题 随即 作废 。 假 设 A 只 擅长 历史 类 问题 ,那么 ,A 答对 第 一 道 题 平均 
需要 多 少 轮 ? 

这 两 个 例子 类 似 于 抽样 中 的 重复 抽样 和 不 重复 抽样 。 例 1 属于 重复 抽 
样 ,A 每 一 轮 答题 彼此 独立 ,而 且 答对 的 概率 相同 ,都 是 VY 3, 因 此 , 例 1 是 典型 
的 几何 分 布 ,期 望 是 (VY 3) 王 3, 所 以 例 1 的 答案 是 3 轮 。 在 例 2 中 ,如 果 A 
第 一 轮 没 答对 ,第 二 轮 答 对 的 概率 就 会 变 为 V 2, 如 果 进 入 第 三 轮 , 他 答对 的 概 
率 更 是 100% ,每 轮 答题 的 结果 会 改变 后 面 轮 次 的 概率 ,因此 各 轮 之 间 不 是 互 
相 独立 的 ,所 以 例 2 不 能 用 几何 分 布 来 解释 。 我 们 简单 计算 一 下 便 会 发 现 , 例 
2 中 人 A 在 第 一 二、 三 轮 首 次 答对 的 概率 都 是 WV 3, 因 此 ,他 首次 答对 问题 所 需 
的 平均 轮 次 是 (Y 3)X(1 十 2 二 3) 一 2, 即 A 平均 只 需要 两 轮 就 可 以 答对 一 个 
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问题 。 两 个 相对 比 ,不 重复 抽样 的 规则 更 有 利于 A. 


44 二 项 分 布 : RERET 


拿 来 一 副 扑 克 牌 ,抽出 大 小 王 , 剩 下 52 张 牌 , 这 52 张 牌 分 属 黑 桃 、 红 桃 、 
梅花 .方块 四 种 花色 ,把 这 52 张 牌 随机 的 发 给 4 位 玩家 ,每 人 13 张 牌 。 定 义 
花色 分 布 为 四 种 花色 的 牌 数 组 合 ,并 且 与 花色 无 关 , 例 如 ,4 一 4 一 3 一 2 是 一 种 
花色 分 布 ,5 一 5 一 3 一 0 是 另 一 种 花色 分 布 。 请 问 : 这 13 张 牌 最 可 能 的 花色 分 
布 是 怎样 的 ? 

是 看 似 最 平均 的 4 一 3 一 3 一 3? 还 是 其 他 花色 分 布 ? 二 项 分 布 将 会 告诉 我 
们 答案 。 

二 项 分 布 来 源 于 伯 努 利 试验 ,所 谓 伯 努 利 试验 就 是 只 有 两 种 可 能 结果 的 
随机 试验 ,比如 抛 硬币 。 当 一 个 伯 努 利 试验 独立 地 重复 进行 n 次 时 ,几何 分 布 
只 能 告诉 我 们 第 一 次 何 时 发 生 ,二 项 分 布 则 可 以 告诉 我 们 各 种 可 能 的 结果 发 
生 的 概率 。 接 下 来 ,我 们 就 从 几何 分 布 出 发 一 起 来 认识 二 项 分 布 。 

几何 分 布告 诉 我 们 , 掷 观 子 时 ,平均 意义 上 需要 6 次 才 会 第 1 次 出 现 六 
点 。 一 个 赌场 老板 知道 了 这 个 结论 ,信心 满 满 地 开设 了 一 个 赌局 : 掷 山子 
5 次 ,如 果 六 点 一 次 都 没 出 现 , 庄 家 赢 ; 否 则 ,庄家 输 。 他 的 想法 是 ,既然 平均 要 
6 次 才 会 第 1 次 出 现 六 点 ,那么 据 5 次 不 出 现 六 点 的 概率 肯定 比 出 现 六 点 的 
概率 要 高 ,庄家 稳 赚 不 赔 。 这 个 想法 听 起 来 很 靠 谱 , 到 底 对 不 对 ,我 们 来 算 
一 算 。 

人 般 子 每 次 出 现 六 点 的 概率 依然 是 V 6, 不 出 现 六 点 的 概率 是 9% 6, 我 们 要 
TIRE 5 次 至 少 出 现 1 次 六 点 的 概率 。 请 读者 们 忘记 逆向 思维 ,要 真正 
认识 二 项 分 布 ,需要 从 正面 来 思考 。 至 少 出 现 1 次 ,可 以 分 为 出 现 1 次 .2 次 .3 
次 4 次 和 5 次 共 5 种 情况 ”出现 1 次 ”又 可 以 分 为 仅 第 1 次 出 现 , 仅 第 2 次 出 
Bhs ALE 5 次 出 现 共 5 种 情况 ,如 此 这 般 , 穷 举 所 有 情况 ,一 定 可 以 计算 
出 结果 。 除 了 穷 举 法 ,我 们 还 可 以 利用 一 个 数学 工具 ,使 计算 变 得 简单 ,这 个 
数学 工具 就 是 排列 组 合 。 
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排列 组 合 


排列 组 合 是 用 来 解决 诸如 “从 有 牌 堆 里 取出 若干 张 牌 ,有 多 少 种 可 能 的 牌 
型 ?这 类 问题 的 数学 公式 ,分 为 排列 公式 和 组 合 公式 两 类 ,排列 是 有 序 的 ,组 合 
是 无 序 的。 我 们 以 斯 诺 克 台 球 为 例 , 来 学 习 排列 组 合 的 基础 知识 。 

斯 诺 克 台球 比赛 开 球 时 ,除了 白色 母 球 外 , 球 桌 上 有 15 颗 红 球 和 6 WK 
色 球 , 红 球 彼此 相同 ,分 值 为 1 分 ,彩色 球 各 不 相同 ,按照 分 值 由 低 到 高 分 别 为 
黄色 球 (2 分 ) ,绿色 球 (3 分 )\ 棕 色 球 (4 分 ) HERG 分 ) 、 粉 色 球 (6 分 ) 和 黑 
色 球 (7 分 )。 
组 合 问题 : 将 两 颗 红 球 随机 放 进 6 个 球 袋 中 的 2 个 ,有 几 种 放置 方法 ? 
为 红 球 彼此 相同 ,我 们 使 用 组 合 公式 来 计算 ,计算 方法 是 ; 

放置 种 类 = CE = 6Y (21K 4!) = 15 HH 
OE: ! 是 阶乘 符号 ,对 任意 整数 &,A! 读 作 “ 的 阶乘 ”, 表 示 &X (k 一 1) XX 
2x1] 
AEAII: 将 蓝 色 球 和 粉色 球 随机 放 进 6 个 球 袋 中 的 2 个 ,有 几 种 放置 
方法 ? 

蓝 色 球 和 粉色 球 彼此 不 同 , 同 样 是 放置 在 1 号 球 袋 和 2 号 球 袋 中 ,有 两 种 
放置 方法 ,而 两 颗 红 球 只 有 一 种 放置 方法 ,如 图 4-2 所 示 。 因 此 ,我 们 使 用 排 
列 公 式 Ai 来 计算 ,计算 方法 是 

放置 种 类 = A} = 6Y 4! = 30 种 


me © @® 
mee © O® 


组 合 排列 


图 4-2 排列 与 组 合 的 区 别 


将 上 述 公 式 进 行 归纳 , 便 可 以 得 到 排列 组 合 的 通用 表达 。 
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将 & 个 相同 的 球 放 进 个 球 袋 中 的 & 个 ,是 组 合 问题 , HAC = 
nY [k! + (n—k) 1 种 放置 方法 。 

将 & 个 互 不 相同 的 球 放 进 ”个 球 袋 中 的 & 个 ,是 排列 问题 ,共有 A+ = 
nV (n—k) ! 种 放置 方法 。 


二 项 分 布 


回 到 掷 5 次 骨 子 的 问题 中 ,我 们 要 分 别 计算 六 点 出 现 1 次 .2 次 ,3 次 .4 次 
和 5 次 的 概率 。 

首先 计算 六 点 只 出 现 1 次 的 概率 ,我 们 可 以 把 所 有 可 能 的 情况 一 一 列举 
出 来 ,这 些 情况 各 自 出 现 的 概率 都 是 (5% OXO 6), 可 是 ,有 多 少 种 可 能 的 情 
DUNE? 每 次 掷 的 仍 子 是 相同 的 ,所 以 ,这 是 一 个 组 合 问题 ,一 共有 C3 种 可 能 的 
情况 ,将 所 有 可 能 情况 的 概率 相 加 , 便 得 到 了 六 点 出 现 1 次 的 概率 : 

P( 六 点 出 现 1 次) = Ci XxX CY 6)*X (6) = 0.401 9 

同 理 , 可 以 计算 出 其 他 情况 的 概率 : 

POA FUL BM 2 X =C X (5 6)? XO 6)? =0. 160 7; 

P( 六 点 出 现 3 WO) =C X CY 6)? X CV 6)?=0, 032 1 

P( 六 点 出 现 4 次 )=CiX (5 6)" X CV 6)*=0. 003 2; 

PC( 六 点 出 现 5 次 )=CiX(5 6)° X (CY 6)5 一 0.000 1。 

将 这 五 个 概率 相 加 便 得 到 了 六 点 至 少 出 现 1 次 的 概率 : 

P( 六 点 至 少 出 现 1 次 ) = 0. 598 1 

这 个 概率 值 大 于 0.5 .说明 掷 5 Ue BE ED HB 1 次 六 点 的 概率 更 大 , 庄 
家 不 可 能 通过 这 个 赌局 赚 到 钱 ! 其 实 , 即 使 把 规则 改 为 掷 4 KET ED HBL 
1 次 六 点 的 概率 也 有 0. 517 7, 还 是 大 于 0.5, 庄 家 依然 是 输家 。 

把 上 面 的 计算 方法 进行 归纳 , 便 可 以 得 到 二 项 分 布 的 通用 表达 。 

设 伯 努 利 试验 有 两 种 可 能 结果 A 和 B ,事件 A 发 生 的 概率 是 p ,事件 B 发 
生 的 概率 是 1 一 p, 独 立地 重复 进行 n 次 该 试验 , 设 随机 变量 X 表示 事件 A 发 
生 的 次 数 ,我 们 称 随机 变量 X 服从 参数 为 n,p 的 二 项 分 布 , 记 为 X~b(n,p)， 
并 且 
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P(X =k) =Gi-(1—p)"* + pt 

二 项 分 布 的 期 望 和 方差 分 别 是 : 

E(X) = np 
Var(X) = np(1— p) 

在 “大 数 定理 ”一 节 中 ,我 们 曾经 提 到 过 ,反复 抛掷 硬币 , 正 反 面 出现 次 数 
相等 的 概率 会 随 着 抛掷 次 数 的 增加 越 来 越 小 ,现在 ,我 们 就 来 计算 一 下 正 反 面 
出 现 次 数 相等 的 概率 。 

抛掷 硬币 10 次 ,出 现 5 次 正面 5 次 反面 的 概率 是 : 

P= X(Y 2)° X CY 2)" = 0. 246 1 
抛掷 硬币 100 次 ,出 现 50 次 正面 50 次 反面 的 概率 是 ， 
P = Cio X (V 2)"  (/ 2)” = 0,079 6 
抛掷 硬币 1000 次 ,出 现 500 次 正面 500 次 反面 的 概率 是 : 
P = Cito X CY 2)™ X CY 2) = 0.025 2 

对 比 这 三 个 概率 值 可 以 发 现 , 抛 硬币 的 次 数 越 多 , 正 反 两 面 出 现 次 数 相同 

的 概率 越 小 。 
二 项 分 布 是 一 个 十 分 独特 的 分 布 ,我 们 从 它 的 分 布 图 中 可 以 看 出 些 端倪 。 
图 4-3 给 出 的 是 610,V 2) .6(10,1 3)、b(10. 5) 和 6(10,1 10) 的 概率 分 布 
图 ,我 们 观察 四 张 图 中 的 最 高 点 : 当 p= V 2 时 ,概率 最 高 点 出 现在 X= 二 5 的 位 
置 ,概率 分 布 关 于 最 高 点 左右 对 称 , 当 p51 3,1 5 Fil V 10 时 ,概率 分 布 不 再 
对 称 , 最 高 点 的 位 置 分 别 出 现 在 X53, X52 入 = 二 1, 是 不 确定 的 。 从 这 组 分 
布 图 中 可 以 看 出 ,二 项 分 布 并 没有 固定 的 规律 可 循 ,只 有 画 出 概率 分 布 图 才能 
找到 最 高 点 , 即 概率 的 最 大 值 。 

本 节 的 最 后 ,我 们 要 回答 开头 提出 的 扑克 牌 问题 了 。13 张 牌 ,4 种 花色 ， 
最 可 能 的 花色 分 布 是 哪 一 种 呢 ? 是 4 一 3 一 3 一 3 吗 ? 这 个 问题 虽然 不 能 直接 
用 二 项 分 布 来 计算 ,但 是 也 具有 二 项 分 布 相似 的 特征 一 一 最 平均 的 情况 ?未 
必 是 概率 最 大 的 。 表 4-5 是 列 出 了 部 分 花色 分 布 的 概率 ,概率 最 高 的 花色 分 
布 果真 不 是 4 一 3 一 3 一 3 ,而 是 4 一 4 一 3 一 21 

请 读者 们 记 住 这 个 反 直 觉 的 案例 , 它 将 始终 提醒 着 你 : 平均 的 未 必 是 最 
可 能 发 生 的 ! 
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图 4-3 四 个 二 项 分 布 的 概率 分 布 图 
表 4-5 花色 分 布 的 概率 
花色 分 布 概率 (%)( 由 大 到 小 排序 ) 
4-4-3-2 21.6 
5-3-3-2 15.5 
5-4-3-1 12.9 
5-4-2-2 10. 6 
4-3-3-3 10.5 
6-3-2-2 5.6 


45 泊 松 分 布 : 神奇 的 e 


如 果 你 每 天 走 在 路 上 ,被 鸟 类 砸 中 的 概率 刚好 是 N 365, 你 一 年 里 一 次 都 
没 被 砸 中 的 概率 是 多 少 ? 
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如 果 你 是 一 个 守株待兔 的 猎人 ,每 天 有 兔子 撞 到 树 上 的 概率 是 V 1 000， 
3 年 里 你 一 只 兔子 都 没 还 到 的 概率 是 多 少 ? 

如 果 飞 机 失事 的 概率 是 百 万 分 之 一 ,你 坐 一 百 万 次 飞机 还 没 遇 到 事故 的 
概率 是 多 少 ? 

这 些 问题 的 答案 全 部 都 是 37%。 

清华 园 里 有 很 多 鸟 儿 , 平 日 里 走 在 林 荫 路 上 , 真 的 可 能 被 鸟 凑 砸 中 ,我 很 
幸运 ,大 学 四 年 一 次 都 没 被 砸 中 ,反而 是 我 的 一 个 外 校 同学 ,第 一 次 来 清华 游 
玩 就 被 鸟 凑 砸 个 正 着 。 这 就 是 让 人 无 法 预测 的 小 概率 事件 ,这 些 事件 的 确 发 
生 过 ,未 来 也 有 可 能 再 次 发 生 , 可 是 谁 也 不 知道 它 什么 时 候 发 生 , 它 像 幽 灵 一 
般 神秘 莫 测 。 即 便 如 此 ,统计 学 家 们 还 是 找到 了 其 中 的 规律 ,我 们 先 从 37% 这 
个 神奇 的 数字 说 起 。 


神奇 的 常数 e 


37% ,这 个 数字 对 大 多 数 人 来 说 很 陌生 ,或 许 只 有 数学 家 才 会 知道 ,这 个 数 
字 正 是 Ve 的 值 。e 是 自然 对 数 底 ,是 个 无 限 不 循环 小 数 ,数值 为 2. 718 2…。 提 
起 数学 中 的 常数 ,大 多 数 人 会 首先 想到 ,其实 , 自 然 对 数 底 e 也 是 数学 世界 中 
十 分 重要 的 常数 。 下 面 我 们 就 通过 一 个 复 利 的 小 故事 告诉 你 e 的 由 来 。 

有 一 天 ,一 个 生意 人 和 急 着 用 钱 , 便 向 一 个 财主 借 钱 。 财 主见 生意 人 十 分 着 
急 , 便 趁 机 抬 高 利息 ,他 开 出 的 条 件 是 ,生意 人 每 借 1 两 银子 ,就 要 在 一 年 后 还 
2 两 银子 ,利率 高 达 100%! 正在 生意 人 犹 御 不 决 之 时 ,财主 又 有 了 一 个 主意 ， 
他 想 ,如 果 改 成 半年 的 利率 50% ,还 是 借 一 年 ,那么 ,半年 后 可 以 得 到 1. 5 两 银 
子 ,一 年 后 就 可 以 得 到 2. 25 两 银子 ,这 样 赚 得 更 多 ! 他 赶紧 收回 了 此 前 的 条 
件 , 改 成 了 半年 还 钱 的 新 条 件 。 可 是 , 话 刚 说 完 ,他 就 又 后 悔 了 。 既 然 半年 还 
钱 比 一 年 还 钱 赚 得 更 多 , 那 为 何不 改 为 每 月 还 钱 、 每 周 还 钱 、 每 天 还 钱 呢 ? 于 
是 财主 赶紧 回 屋 拿 起 笔 来 算 一 算 。 

半年 还 一 次 ,利率 50% ,还 钱 总 数 是 (1 十 0. 5)? =2. 25( BN); 
月 还 一 次 ,利率 V 12 ,还 钱 总 数 是 (1 十 Y 12)”=2. 613 0( 两 ); 
周 还 一 次 ,利率 V 52 ,还 钱 总 数 是 (1 十 V 52)°=2. 692 6( 两 ); 
每 天 还 一 次 ,利率 V 365 ,还 钱 总 数 是 (1 十 V 365) =2.714 6( 两 ) 。 
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计算 结果 让 财主 十 分 失望 ,还 钱 总 数 并 没有 预想 的 那么 多 。 到 这 里 读者 
一 定 看 出 来 了 ,如 果 我 们 把 每 天 再 拆 成 每 一 小 时 、 每 一 分 钟 、 每 一 秒 钟 ,还 钱 总 
数 会 增长 的 更 加 缓慢 ,最 终 会 越 来 越 接 近 神 奇 的 自然 对 数 底 e。 从 数学 的 角度 
来 看 , 当 x 趋 于 无 穷 大 时 ,(1 十 Vx)" 的 极限 值 正 是 e。 

Ve 的 值 是 0. 367 9…, 近 似 为 37%, 它 与 小 概率 事件 之 间 的 神秘 关系 源 
于 “小 概率 事件 定律 *。 小 概率 事件 定律 ,是 指 一 个 十 分 罕见 的 随机 事件 ,几乎 
只 发 生 过 一 次 ,并 且 今 后 能 否 再 次 发 生 难以 预测 ,那么 这 个 事件 不 再 发 生 的 概 
RUE Ye。 被 鸟 状 磺 中 、 免 子 撞 树 `\ 飞 机 失事 都 满足 上 述 条 件 ,因此 这 些 事件 不 
再 发 生 的 概率 都 是 37%。 

小 概率 事件 定律 听 起 来 有 些 玄妙 ,其 实 背 后 也 是 有 数学 原理 的 ,这 就 是 泊 
松 分 布 。 


泊 松 分 布 


被 雷 臂 、 中 彩票 、 飞 机 失事 等 小 概率 事件 总 是 让 人 难以 捉摸 ,它们 很 少 发 
生 , 几 乎 无 法 预测 ,即便 如 此 ,概率 统计 还 是 有 办 法 用 数学 公式 来 描述 它们 。 
泊 松 分 布 正 是 用 来 描述 那些 无 法 预测 的 小 概率 事件 发 生 次 数 的 分 布 , 设 随机 
变量 X 表示 某 事件 发 生 的 次 数 , 若 X 服从 泊 松 分 布 , 则 有 


P(X 一 b= pes k=0,1,2- 


公式 中 的 人 (英文 写作 lamda) 是 一 个 常数 , 泊 松 分 布 的 期 望 和 方差 都 是 4， 
图 4-4 是 4 二 1 时 的 泊 松 分 布 图 。 

当 & 一 0 一 1 时 ,PCX 一 0) 一 We, 这 便 是 小 概率 事件 定律 的 数学 原理 。 

泊 松 分 布 在 生活 和 科研 中 的 应 用 十 分 广泛 。 比 如 每 个 小 时 进入 银行 办 理 
业务 的 人 数 、 报 纸 上 每 一 页 的 错别字 数量 、 某 个 网 页 的 点 击 量 。 网 页 的 点 击 
量 ? 你 表 定 会 对 这 个 例子 表示 质疑 ,因为 点 击 某 个 网 页 未 必 是 小 概率 事件 ,如 
果 这 个 网 页 是 谷歌 .百度 的 首页 怎么 办 ? 答案 是 缩短 时 间 跨 度 。 泊 松 分 布 描 
述 的 是 一 个 小 概率 事件 在 单位 时 间 内 发 生 的 次 数 ,这 里 的 “单位 时 间 ” 是 可 以 
任意 指定 的 ,对 一 个 热门 网 页 来 说 ,一 秒 的 点 击 量 可 能 都 有 上 万 次 ,肯定 算 不 
上 小 概率 事件 ,那么 我 们 就 把 单位 时 间 调 整 到 一 毫秒 甚至 一 微 秒 ,在 那样 的 
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9 ì=1 
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k 
图 4-4 泊 松 分 布 


单位 时 间 ” 里 ,网 页 点 击 一 定 可 以 算 作 小 概率 事件 了 。 另 外 , 泊 松 分 布 所 描述 
的 事件 一 定 是 无 法 预测 的 随机 事件 ,以 网 页 点 击 来 说 ,全 球 几 十 亿 网 民 随 时 可 
能 会 点 击 某 个 网 页 ,如 此 难以 预测 的 事件 一 定 是 随机 事件 。 

回顾 泊 松 分 布 的 表达 式 , 除 了 自然 对 数 底 e 之 外 ,还 有 一 个 常数 入 ,这 个 常 
数 是 怎么 来 的 呢 ? 

这 需要 从 二 项 分 布 谈 起 。 我 们 知道 ,美式 大 转盘 共有 38 个 数字 ,每 一 局 
只 会 出 现 一 个 数字 ,所 以 每 个 数字 出 现 的 概率 都 是 WV 38。 以 数字 “00” 为 例 ， 
“00” 在 每 一 局 中 出 现 的 概率 都 是 p= V 38. 那 么 ,在 n= 二 38 局 游戏 中 ,“00” 出 
现 & 次 的 概率 是 多 少 ? 

我 们 把 每 一 局 的 结果 分 为 “00” 和 *“ 非 00” 两 种 结果 ,于 是 ,大 转盘 游戏 变 成 
了 一 个 伯 努 利 试验 ,回顾 上 一 节 学 习 的 二 项 分 布 “00” 出 现 k 次 的 概率 是 

P(X =2)=Ch+ a py" + pt = Ch + (1 a)" : (x) 

在 这 里 ,我 们 特意 选择 了 n= 38 局 ,是 因为 我 们 需要 np 成 为 一 个 常数 ,这 
NS BORE A. BAT A=np 是 一 个 常数 ,用 Wn 代替 pp, 可 以 得 到 
P(X =k) =Œ- Qp pt 


=J ezani nk l.a (1 A) (1 A) 


k! n n n 


as a 


k 
Skr S 
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泊 松 分 布 出 现 了 , 它 是 二 项 分 布 的 近似 表达 式 。 在 上 面 的 例子 中 ,n 二 38， 
PEV 38, 因此 4 是 1。 我 们 也 可 以 令 4 为 其 他 常数 ,只 要 你 取 适 合 的 xn 和 p 就 
可 以 了 。 

在 求解 概率 问题 的 过 程 中 ,如 果 n20 并 且 p 二 0. 05, 我 们 就 可 以 用 泊 松 
分 布 来 近似 二 项 分 布 , 这 种 近似 会 帮助 我 们 大 大 简化 计算 过 程 。 


46 正 态 分 布 : 完美 曲线 


电子 体重 计 是 当下 很 多 家 庭 的 必 备 家 电 , 一 家 人 隔 三 岔 五 称 称 体重 ,各 有 
目标 : 爸爸 要 变 得 健壮 ,妈妈 要 保持 身材 ,孩子 要 苗 壮 成 长 。 我 们 用 电子 体重 
计时 , 测 一 次 足 奖 ,虽然 初中 课本 教 过 我 们 ,测量 有 误差 ,多 次 测量 可 以 减 小 
误差 ”可 是 我 相信 , 没 人 会 为 了 消除 误差 测 上 五 次 十 次 的 ,除了 某 些 数学 
天 才 。 

FA) e 庞 加 莱 (1854 一 1912) 是 法 国 数学 家 、 天 体力 学 家 、 数 学 物理 学 家 、 
科学 哲学 家 ,被 公认 为 19 世纪 末 和 20 世纪 初 的 领袖 数学 家 。 他 有 一 桩 与 称 
重 有 关 的 轶 事 。 庞 加 莱 常 去 住处 附近 的 一 家 面包 店 买 面包 ,每 次 买 一 块 ,重量 
是 一 干 克 。 不 知 是 出 于 怀疑 还 是 天 生 处 女 座 , 庞 加 莱 每 次 买 完 面包 回 到 家 都 
要 再 称 一 次 面包 重量 ,然后 把 重量 记 在 本 子 上 。 就 这 样 , 庞 加 莱 坚 持 称 重 一 
年 ,计算 出 重量 的 平均 值 是 950 克 , 甚 至 还 画 出 了 一 个 直方 图 ,如 图 4-5 所 示 。 
然后 ,他 报 了 和 警 ! 他 举报 这 个 面包 店 缺 斤 少 两 .数据 和 直方 图 可 以 作证 。 这 家 
倒霉 的 面包 店 被 迫 停业 整顿 一 个 月 。 面 包 店 重新 开张 后 , 庞 加 莱 继续 买 面 包 ， 
继续 称 重 ,继续 记录 ,继续 画图 。 一 年 以 后 , 庞 加 莱 再 次 计算 面包 重量 的 平均 
值 , 结 果 是 1 千克 ,看 起 来 面包 店 改 正 了 自己 缺 斤 少 两 的 问题 ,可 是 , 庞 加 莱 观 
察 直方 图 时 还 是 发 现 了 问题 : 面包 的 重量 本 应 服从 均值 为 1 千克 的 正 态 分 布 ， 
可 是 ,直方 图 的 形状 明显 不 符合 ! 庞 加 莱 稍 一 动脑 便 猜 到 了 原因 : 面包 店 并 
没有 改正 缺 斤 少 两 的 问题 ,只 不 过 把 重 一 些 的 面包 特意 卖 给 了 自己 ! 于 是 ,他 


在 这 桩 轶 事 中 ,最 摸 不 着 头脑 的 非 警察 莫 属 ,他 们 要 想 搞 明白 庞 加 莱 报警 
的 原因 ,必须 学 会 概率 统计 中 最 重要 、 最 常用 的 正 态 分 布 ! 
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面包 重量 分 布 (停业 整顿 前 ) 面包 重量 分 布 ( 停 业 整顿 后 ) 


T T an T T T T ae W 
800 850 900 950 1000 1050 1100 800 850 900 950 1000 1050 1100 
千克 千克 


4-5 庞 加 莱 绘 制 的 面包 重量 分 布 图 


正 态 分 布 


正 态 分 布 ,又 称 高 斯 分 布 ,是 概率 统计 中 最 常用 的 概率 分 布 ,与 此 前 学 习 
的 概率 分 布 不 同 , 正 态 分 布 是 连续 随机 变量 的 概率 分 布 ,在 描述 连续 随机 变量 
的 分 布 时 ,我 们 使 用 概率 密度 函数 (x), 而 不 是 P(X),f(z) 来 源 于 微 积分 ， 
这 里 不 做 详 述 ,读者 们 可 以 把 f(z) 当 作 P(X) 的 一 种 微观 表达 方式 。 
如 果 随 机 变量 X 的 概率 密度 函数 为 
f(x) = 


aw? 
e 2 


TO 

则 称 X 服从 正 态 分 布 。 我 们 不 需要 记 住 这 个 复杂 的 公式 ,但 一 定 不 能 忘 
记 正 态 分 布 那 条 完美 的 钟 形 曲线 ,如 图 4-6 所 示 。 

正 态 分 布 的 期 望 为 w, 方 差 为 c ,标准 差 为 o, 我 们 常 把 期 望 为 jy、 方 差 为 o* 
的 正 态 分 布 记 为 NCy,o*) ,随机 变量 X 服从 该 分 布 记 为 X~NCjwo?)。 图 4-6 
是 标准 正 态 分 布 NCO, 1) 的 概率 分 布 曲线 ,从 图 中 可 以 看 出 ,标准 正 态 分 布 关 
F 2=0 左右 对 称 ,此 外 ,图 4-6 还 标注 了 随机 变量 X 的 值 落 在 [一 1,1]、\[ 一 2,2] 
和 [一 3,3] 区 间 的 概率 大 小 ,X 的 值 处 于 [一 3,3] 区 间 的 概率 达到 了 99.7% , 接 
近 100%! 这 个 特性 叫 作 *3c 法 则 ”, 它 可 以 拓展 到 所 有 的 正 态 分 布 , 即 服 从 正 
态 分 布 No) 的 随机 变量 的 值 几乎 一 定 会 落 在 [w 一 3c, pw 十 3o] 这 个 区 间 内 。 
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图 4-6 ESS 


在 前 文中 ,我 们 多 次 提 到 正 态 分 布 是 “最 常用 ”的 概率 分 布 ,这 可 不 是 空 穴 

来 风 , 正 态 分 布 有 一 种 独一无二 的 能 力 一 一 化 繁 为 简 。 在 庞 加 莱 称 面包 的 例 
子 中 , 庞 加 莱 一 口 咬定 ,面包 的 重量 服从 正 态 分 布 ,这 是 为 什么 呢 ?” 面 包 虽 小 ， 
所 含 的 成 分 却 不 少 ,面粉 .水 分 、 盐 、 酵 母 甚至 空气 都 是 面包 的 成 分 ,每 一 种 成 
分 的 重量 都 有 或 多 或 少 的 随机 性 ,要 计算 这 些 随机 变量 相 加 之 后 的 概率 分 布 
一 定 十 分 复杂 ,大 概 只 有 天 才 数 学 家 才能 搞定 吧 。 其 实 不 然 , 或 许 庞 加 莱 连 面 
包 的 成 分 都 不 清楚 ,但 他 可 以 确定 ,面包 的 重量 服从 正 态 分 布 ,因为 他 懂 
得 一 一 中 心 极 限定 理 。 
中 心 极限 定理 是 与 大 数 定理 并 列 的 重要 概率 理论 , 它 有 几 种 不 同 的 表达 
方式 ,核心 思想 是 ,大 量 的 独立 随机 变量 相 加 ,不 论 各 个 随机 变量 的 分 布 是 怎 
样 的 ,它们 的 加 和 必定 会 趋向 于 正 态 分 布 。 面 包 里 虽然 有 很 多 种 未 知 分 布 的 
随机 成 分 ,只 要 这 些 成 分 加 在 一 起 ,一 块 面包 的 重量 便 会 服从 正 态 分 布 。 

读者 还 记得 “大 数 定理 ” 吗 ?”“ 大 数 定理 ”的 另 一 种 表达 方式 是 “均值 定 
理 ”, 其 含义 是 ,随机 变量 X 多 个 观察 值 的 均值 会 随 着 观察 值 的 增加 越发 趋 近 
于 期 望 值 w, 中 心 极限 定理 进一步 告诉 我 们 ,均值 服从 期 望 为 w 的 正 态 分 布 。 
在 各 种 测量 试验 中 ,我 们 一 般 都 认为 ,测量 结果 的 均值 服从 正 态 分 布 , 根 据 总 
体 均 值 估计 的 结论 , 正 态 分 布 的 期 望 w 是 应 与 观察 值 的 均值 近似 相等 ,这 就 是 
庞 加 莱 用 来 证 明 面包 店 缺 斤 短 两 的 数学 原理 。 
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三 大 分 布 


正 态 分 布 是 概率 统计 最 重要 的 分 布 ,由 它 演变 而 来 的 另外 三 个 分 布 并 称 
统计 学 “三 大 分 布 ”, 在 统计 学 中 有 很 广泛 的 用 途 , 下面 我 们 就 来 认识 一 下 
它们 。 

XS Ah 

设 Xi ,Xa,…,X, 是 来 自 总 体 N(0,1) 的 样本 , 则 称 统计 量 

X? = Xf 十 XX 十 … 十 XX 

服从 自由 度 为 n 的 X 分 布 ( 读 作 “ 卡 方 分 布 ”), 记 为 X~X?(n) ,概率 分 布 

如 图 4-7 所 示 。 


47 OD 


XX 分布 的 期 望 和 方差 分 别 是 
E(X?) =n, D(X*) =2n 


tA 
i X~N(0.1).¥Y~X?*(n) ,并 且 X 和 Y 互 相 独 立 , 则 称 随 机 变量 
X 
VB 


服从 自由 度 为 nn 的 t 分 布 , 记 为 1~t(n) ,概率 分 布 如 图 4-8 所 示 。 
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图 4-8 上 分 布 


下 分 布 
i X~ X? (m) Y~ X? m), H. X FMY 互相 独立 , 则 称 随机 变量 
F = (X mY (Yn) 
服从 自由 度 为 (ma snd H F Od Ai. A F~ F ,nz), 概 率 分 布 如 图 4-9 
所 示 。 


0.4 
F(2,1) 
034 
7(1,1) 
1(1,2) 
02 
0.1 
0.04 r r r r 
0 1 2 3 4 5 
x 
图 4-9 下 分 布 


这 三 大 分 布 在 假设 检验 、 参 数 估计 等 统计 学 问题 中 常常 使 用 ,本 书 不 会 对 
这 三 大 分 布 做 深入 介绍 , 感 兴趣 的 读者 可 以 阅读 统计 学 的 专业 书籍 。 
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47 指数 分 布 : CEN 5 RR” 


强大 的 指数 


提起 指数 ,读者 们 一 定 对 “棋盘 上 放 麦 粒 的 故事 很 熟悉 ,这 个 故事 源 自古 
印度 的 一 个 古老 的 传说 。 侈 罕 王 打算 重 赏 象棋 的 发 明 者 宰相 达 伊 尔 , 达 伊 尔 
跪 在 国王 面前 ,提出 了 自己 的 请 求 :“ 陛 下 ,请 您 在 棋盘 上 第 一 个 小 格 里 放 一 
粒 麦 子 ,第 二 个 小 格 里 放 两 粒 麦 子 ,第 三 个 小 格 里 放 四 粒 麦 子 , 如 此 这 般 , 直 到 
填 满 整 个 棋盘 ,这 就 是 微 臣 要 的 奖赏 ”国王 一 听 , 觉 得 这 样 的 要 求实 在 不 足 为 
奇 ,但 既然 达 伊 尔 如 此 要 求 , 便 下 令 满足 他 的 要 求 。 仆 人 们 打 来 一 袋 麦 子 ,本 
以 为 足够 ,可 是 还 没 填 满 十 格 就 不 够 了 ,之 后 ,一 袋 又 一 袋 的 麦子 被 打 过 来 , 距 
离 填 满 棋盘 依然 遥遥 无 期 。 最 后 ,国王 不 得 不 承认 , 倾 全 国之 麦 粒 也 无 法 满足 
达 伊 尔 的 请 求 。 

国际 象棋 的 棋盘 有 64 个 格 ,按照 达 伊 尔 的 请 求 ,最 后 一 个 格子 里 要 放 2 
粒 麦 子 ,我 们 用 计算 机 的 常用 计量 单位 来 衡量 这 个 数字 ,2” 大 约 是 1KB,2” 是 
1MB,2*” 是 1GB,2* 是 1TB,2” 是 1PB. 2° Œ 1EB, 即 使 对 超级 计算 机 来 说 ,这 
也 是 个 十 足 的 “大 数据 ”! 

指数 既 能 把 数字 变 得 无 穷 大 ,也 能 把 数字 变 得 无 穷 小 。 有 这 样 一 个 与 指 
数 有 关 的 问题 : 假设 有 一 种 细胞 ,分 裂 和 死亡 的 概率 相同 ,都 是 50%。 如 果 一 
个 物种 从 这 样 一 个 细胞 开始 进化 ,那么 这 个 物种 灭绝 的 概率 是 多 少 ? 

直觉 告诉 我 们 ,应 该 是 50% 吧 。 细 想 想 ,如 果 细 胞 一 开始 就 死亡 ,物种 便 
灭绝 了 ,概率 是 50% ;如 果 第 一 个 细胞 分 裂 为 两 个 细胞 ,这 两 个 细胞 有 可 能 全 
部 死亡 ,这 种 情况 的 概率 是 50% X50% X50% =12. 5%, 如 此 一 直 计 算 下 去 ， 
会 得 到 无 穷 多 的 概率 ,这 些 概 率 相 加 就 是 物种 灭绝 的 概率 。 因 此 这 个 概率 肯 
定 大 于 50% ,可 是 究竟 是 多 少 .我 们 来 算 一 算 。 

设 A 表示 物种 灭绝 事件 ,Bi 表示 第 一 个 细胞 分 裂 ,Bs 表 示 第 一 个 细胞 死 
亡 ,根据 全 概率 公式 ,有 如 下 等 式 : 

P(A) = P(A | B,) + P(B,) + P(A |B,).P(B,) 
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很 显然 ,P(B1)= 二 50%, P(B2)=50%, P(A|B2)=1, P(A|B) RAH 
细胞 分 裂 的 前 提 下 ,物种 灭绝 的 概率 ,第 一 个 细胞 会 分 裂 为 两 个 独立 的 细 


胞 ,因此 A1B, 事 件 等 同 于 “两 个 细胞 各 自分 烈 或 死亡 ,最 终 物种 灭绝 的 概率 ”， 


这 两 个 细胞 彼此 独立 ,因此 “两 个 细胞 导致 物种 灭绝 ”的 概率 是 “一 个 细胞 
物种 灭绝 ”的 概率 的 平方 , 即 PCA1B1) 二 [P(A) 了 ,这 与 编程 中 的 递归 算 
1 同 工 。 
我 们 用 p 代替 P(A), 便 可 以 得 到 如 下 等 式 ;: 

p= p/24+V2 
解 这 个 方程 ,会 得 到 一 个 惊人 的 答案 : p= 二 1, 物 种 必然 会 灭亡 ! 
这 就 是 指数 ,不 论 变 大 还 是 变 小 , 它 总 是 拥有 无 比 强大 的 爆发 力 ! 


指数 分 布 


在 概率 统计 中 ,也 存在 一 个 与 指数 有 关 的 分 布 
如 果 随 机 变量 X 的 概率 密度 函数 为 


指数 分 布 。 


Liew, 2 >0 
f(x)=<4 
0. x<0 
则 称 X 服从 参数 为 a 的 指数 分 布 .其 中 a 为 大 于 0 的 常数 。 
图 4-10 为 a 取 不 同 数值 时 的 指数 分 布 曲 线 。 
3.0 


2:5 


A410 指数 分 布 
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指数 分 布 的 一 个 重要 的 性 质 是 “无 记忆 性 ”, 它 指 的 是 服从 指数 分 布 的 随 
机 变量 X 满足 : 


P(X >st+t|X>s) = P(X>2t) 

其 中 ,s 和 z 是 两 个 常数 。 

举 个 例子 , 设 随机 变量 X 是 灯泡 的 使 用 时 间 ,X 服从 指数 分 布 。 那 么 ,上 
面 的 等 式 可 以 解读 为 ,灯泡 在 已 经 使 用 * 小 时 的 条 件 下 ,使 用 时 间 长 于 s 十 t 小 
时 的 概率 与 灯泡 使 用 时 间 长 于 t 小 时 的 概率 是 相等 的 ,看 起 来 ,灯泡 似乎 “ 忘 
记 ” 了 自己 曾经 使 用 了 s 小 时 ,这 就 是 “无 记忆 性 ”, 正 因为 这 一 特性 ,指数 分 布 
常常 应 用 于 排队 论 中 。 

生活 在 人 来 人 往 的 社会 中 ,排队 是 每 天 必 做 的 事情 。 上 下 班 排队 等 公交 
车 \ 去 超市 购物 排队 交 费 .开车 出 游 排 队 过 收费 站 、 牵 着 爱人 的 手 到 民政 局 也 
要 排队 领结 婚 证 。 排 队 论 ,也 称 随机 服务 系统 理论 , 它 通 过 对 服务 对 象 到 来 及 
服务 时 间 的 统计 研究 ,得 出 统计 规律 ,再 根据 这 些 规 律 来 改进 服务 系统 的 
结构 。 

我 们 以 银行 为 例 来 说 明 排 队 论 原理 。 银 行 一 般 会 开设 若干 窗口 为 顾客 服 
务 , 顾 客 依次 进入 大 厅 , 刷 卡 领 号 ,然后 坐 在 大 厅 中 等 候 叫 号 ,这 是 一 个 非常 典 
型 的 排队 论 研究 场景 。 排 队 论 中 常常 假定 顾客 的 到 来 是 “不 可 预测 ”的 随机 事 
件 ,所 以 顾客 单位 时 间 内 到 达 的 人 数 服从 泊 松 分 布 ,与 之 相对 应 的 ,顾客 的 到 
达 时 间 间 隔 恰 恰 服 从 指数 分 布 ,我 们 设 单位 时 间 内 到 达 的 顾客 数量 为 *, 则 顾 
客 的 到 达 时 间 间 隔 工 服从 如 下 的 概率 密度 函数 

fO =ae“, t>0 

A, T A VA. VA’. 

指数 分 布 的 无 记忆 性 体现 在 ,从 任意 时 刻 算 起 ,顾客 的 到 达 时 间 间 隔 都 服 
从 同样 的 指数 分 布 , 这 正 是 指数 分 布 的 神奇 之 处 。 另 一 个 典型 的 排队 论 场景 
是 排队 等 待 公交 车 。 在 交通 繁忙 的 城市 里 ,公交 车 的 到 站 时 间 往 往 难 以 预测 ， 
加 此 公交 车 的 到 达 时 间 间 隔 也 近似 服从 指数 分 布 , 这 就 意味 着 ,无 论 你 什么 时 
候 到 达 车 站 ,等 候 时 间 都 服从 同样 的 指数 分 布 。 所 以 ,刚刚 错过 一 辆 未 必 意 味 
着 需要 等 待 很 久 ,已 经 等 了 很 久未 必 意 味 着 车 会 马上 来 ,在 公交 车 站 里 ,我 们 
能 做 的 只 有 耐心 等 待 。 
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Te?" 与 KEEL” 


由 指数 分 布 衍生 出 了 两 个 著名 的 理论 一 一 二 八 定律 ?和 "长 尾 理论 ”。 

“二 八 定律 ? 指 的 是 生活 中 的 许多 不 平衡 现象 往往 呈现 20% 、80% 的 分 布 
规律 ,比如 ,社会 上 80% 的 财富 被 20% 的 富 人 占有 ,公司 80% 的 收益 来 自 
20% 的 客户 ,行业 里 80% 的 市 场 份额 被 20% 的 强势 品牌 所 占有 。 

“二 八 定律 "又 称 帕 累 托 定律 , 它 源 自 意大利 经 济 学 者 帕 累 托 的 一 个 发 现 。 
1897 年 , 帕 累 托 偶然 注意 到 19 世纪 英国 人 的 财富 和 收益 模式 。 在 调查 取样 
中 ,他 发 现 大 部 分 财富 流向 了 少数 人 手 里 ,这 种 微妙 关系 在 其 他 国家 一 再 出 
现 , 而 且 在 数学 上 呈现 出 一 种 稳定 的 关系 。 帕 累 托 从 中 总 结 出 这 样 的 规律 
财富 在 人 口中 的 分 配 是 不 平衡 的 ,社会 上 20% 的 人 占有 80% 的 财富 。 

在 帕 累 托 定律 之 后 ,人 们 相继 发 现 很 多 领域 都 存在 类 似 的 不 平衡 现象 。 
一 个 知名 的 例子 是 犹太 人 经 商 的 “二 八 定 律 "”。 美 国企 业 家 威廉 * 穆 尔 在 为 格 
利 登 公司 销售 油漆 时 ,第 一 个 月 仅 挣 了 160 美元 。 此 后 ,他 学 习 犹太 人 经 商 的 
“二 八 定律 ”, 分 析 自 己 的 销售 图 表 , 发 现 80% 的 收益 来 自 20% 的 客户 ,但 是 他 
却 对 所 有 客户 花费 了 同样 多 的 时 间 。 于 是 ,威廉 " 穆 尔 把 最 不 活跃 的 36 个 客 
户 分 派 给 其 他 销售 人 员 , 自 己 则 把 精力 集中 到 那 20% 的 客户 上 ,不 久 , 他 一 个 
月 就 赚 到 了 1 000 美元 。 威 廉 * 穆 尔 从 此 学 会 了 犹太 人 经 商 的 “二 八 定律 ”, 连 
续 九 年 坚持 这 一 法 则 ,最 终 成 为 凯利 一 穆 尔 油漆 公司 的 董事 长 。 

“二 八 定律 "是 对 线性 思维 的 颠覆 , 它 提醒 我 们 ,财富 的 分 配 往 往 是 不 平均 
的 ,因此 ,我 们 也 不 应 该 用 简单 的 线性 思维 来 分 配 我 们 的 时 间 , 把 更 多 的 时 间 
用 在 最 有 成 效 的 “20%” 身 上 才能 走 上 成 功 之 路 ! 
互联 网 时 代 催生 的 “长 尾 理 论 ” 是 对 “二 八 定律 ”的 颠覆 ,与 “二 八 定律 ” 相 
反 ,“ 长 尾 理 论 ” 关 注 指数 分 布 的 后 80% 的 “ 利 基 市 场 ”, 如 图 4-11 所 示 。“ 长 尾 
理论 ”认为 ,在 高 度 互联 的 网 络 时 代 , 商 品 的 生产 ,存储 、 流 通 、 销 售 的 成 本 大 大 
降低 ,需求 量 较 低 的 小 众 产 品 可 以 毫 不 费力 地 找到 买 家 ,大 量 的 小 众 产 品 会 累 
积 成 很 大 的 市 场 份额 ,甚至 可 能 超过 那 20% 的 主流 产品 。 例 如 ,一 家 大 型 书店 
通常 可 摆 放 10 万 本 书 , 但 亚马逊 网 络 书店 的 图 书 销售 额 中 ,有 V4 来 自 排名 
10 万 以 后 的 书籍 ,而 且 这 一 比例 仍 在 上 升 。 


095 


生 界 是 随机 的 一 大 数据 时 代 的 概率 统计 学 


80% | 20% 
利 基 市 场 


= 20% 80% = 


4-11 “二 八 定律 "示意 图 


“长 尾 ” 一 词 最 早 由 美国 ( 连 线 ) 杂 志 主 编 克 里 斯 * 安德森 提出 。 克 里 
斯 * 安德森 喜欢 从 数字 中 发 现 趋势 ,在 跟 eCast 首席 执行 官 范 ， 阿迪 布 的 一 
次 会 面 时 ,阿迪 布 提出 一 个 让 人 耳目 一 新 的 “98 法 则 ”一 一 数字 音乐 的 点 唱 统 
计 结 果 显 示 , 听 众 对 98% 的 非 热 门 音乐 有 着 无 限 的 需求 , 非 热 门 音乐 的 潜在 市 
场 空间 无 比 巨 大 。 安 德 森 意识 到 ,这 个 有 悖 常识 的 “98 法 则 ”或 许 隐 含 着 一 个 
真理 。 于 是 ,他 系统 研究 了 Amazon Google .eBay Netflix 等 互联 网 零售 巨头 
的 销售 数据 ,并 与 沃尔玛 等 传统 零售 商 的 销售 数据 进行 了 对 比 ,得 到 了 一 条 需 
求 曲线 ,这 条 曲线 拖 着 长 长 的 尾巴 ， 长 尾 " 由 此 得 名 。 安 德 森 把 他 的 发 现 整理 
成 文章 ,标题 正 是 “长 尾 ”, 这 篇 文章 刊登 在 ( 连 线 》 杂 志 2004 年 10 月 号 ,后 迅 
速 蹄 升 为 这 家 杂志 历史 上 被 引用 最 多 的 文章 ,随后 安德森 据 此 撰写 了 《长 尾 理 
论 ), 这 本 书 也 一 举 登 上 纽约 时 报 畅销 书 排行 榜 。 
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导语 : 赌博 ,永远 不 缺乏 激情 ,可 是 鲜 为 人 知 的 是 ,赌博 的 原理 
恰恰 是 严谨 的 概率 统计 。 学 会 了 赌博 中 的 概率 统计 ,可 以 让 我 们 更 
加 享受 赌局 ,真正 做 到 "充满 激情 的 同时 不 吏 失 理性 ,充满 理性 的 同 
at RR AR"! 


51 赌博 : 激情 与 理性 


在 我 们 的 意识 里 ,赌博 总 被 认为 是 低级 负面 的 ,然而 细 细 想来 ,赌博 本 
是 一 个 中 性 词 。 中 国 澳门 赌场 里 的 老虎 机 、 大 转盘 是 赌博 ,过 年 时 家 里 摆 上 
两 桌 麻 将 也 是 赌博 ,对 大 多 数 人 来 说 ,赌博 是 为 了 体验 “未 知 ? 带 来 的 刺激 ， 
就 像 球 迷 们 盯 着 电视 看 点 球 大 战 一 样 , 那 干 钧 一 发 的 时 刻 总 是 充满 变数 ,无 
比 刺激 ! 

赌博 早 在 几 百 年 前 就 已 经 存在 ,如 今 甚 至 发 展 成 为 一 个 独立 的 产业 一 一 
博彩 业 , 世 界 四 大 赌 城 一 一 拉 斯 维 加 斯 、 大 西洋 城 .蒙特 卡 洛 和 中 国 澳门 一 一 
正 是 博彩 业 的 象征 。 
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博彩 业 有 很 多 分 支 , 比 如 彩票 .赌场 .赛马 等 ， 
票 和 体育 彩票 构成 。 
中 国 福利 彩票 始 于 1987 年 ,以 “ 扶 老 助残 , 济 


我 国 的 博彩 业主 要 由 福利 彩 


困 救 孤 ”为 宗旨 ,包括 了 刊 乔 


FR DUEL ER 35 选 7 等 多 种 数字 型 彩票 。 中 国体 育 彩票 是 竞猜 体育 比赛 结果 的 彩 
票 ,涵盖 足球 ,篮球 等 多 个 体育 项 目 ,其 中 足球 彩票 的 发 行 量 最 大 ,玩法 最 多 。 


赌场 中 的 赌博 花样 繁多 ,老虎 机 、 大 转盘 是 赌 
是 扑克 类 的 代表 。 


赛 : 


无 论 哪 一 种 博彩 方式 ,都 建立 在 
我 们 提 到 ,概率 论 起 源 于 仍 子 游戏 的 研究 。 伽 利 略 届 
f 完 过 明子 游 戏 中 的 概率 问题 “样本 空间 >” 


KEHE 


些 研究 F 


博 机 的 代表 ,得 州 扑克 、21 点 


,又 称 赌 马 ,是 对 跑马 结果 进行 竞猜 的 一 种 彩票 。 由 巴黎 实业 家 奥 莱 于 
19 世纪 末 发 明 ,后 来 成 为 全 世界 最 盛行 的 一 种 赌博 ,现在 在 中 国 香港 非常 流行 。 


:概率 统计 的 基础 之 上 。 在 前 面 第 2 章 中 


斯 卡 、 费 马 等 多 位 数学 


条 件 概率 ”等 概念 也 从 这 


1 萌芽 出 来 。 后 来 ,概率 论 形成 并 逐渐 完善 ,催生 了 博彩 种 类 的 丰富 ， 


铸就 了 博彩 业 的 兴盛 。 一 个 合格 的 博彩 玩家 必须 懂得 博彩 背后 的 概率 原理 ， 

- 定 是 赌局 里 那个 头脑 发 异 的 笨蛋 ! 
1 言 之 ,要 真正 享受 博彩 的 乐趣 ,就 要 做 到 "充满 激情 的 同时 不 丧失 理 
性 ,充满 理性 的 同时 不 丧失 激情 ”! 本 章 ,我 们 就 来 聊 聊 隐藏 在 赌局 背后 的 概 


否则 ,他 


总 T 


率 统计 原理 。 
博彩 业 各 种 玩法 示意 图 如 图 5-1 所 示 。 


图 5-1 博彩 业 各 种 玩法 示意 图 


第 5 章 赌博 中 的 概率 统计 


52 双色 球 : 千年 等 一 回 


数字 类 彩票 规则 简单 .操作 方便 ,是 全 球 最 流行 的 博彩 方式 。 我国 的 数字 
型 彩票 种 类 繁多 ,包括 双色 球 、 排 列 五 、 排 列 三 、 刊 刊 乐 .35 选 7 和 各 种 地 方 福 
利 彩票 。 下 面 ,我 们 以 双色 球 为 例 , 一 起 来 学 习 数 字 型 彩票 的 概率 原理 。 


投注 规则 


双色 球 是 我 国 数字 型 彩票 的 经 典 彩 种 ,于 2003 年 开始 在 全 国联 网 发 售 ， 
是 现在 全 国 销售 额 最 大 的 彩 种 之 一 ,曾经 出 现 过 多 位 奖金 过 亿 的 中 奖 者 。 

双色 球 的 投注 规则 是 : 双色 球 投注 区 分 为 红 球 号 码 区 和 蓝 球 号 码 区 , 红 
球 号 码 区 由 1 一 33 Jk 33 个 号 码 组 成 , 蓝 球 号 码 区 由 1 一 16 JE 16 个 号 码 组 成 。 
投注 时 选择 6 个 红 球 号 码 和 1 个 蓝 球 号 码 组 成 一 注 进行 单 式 投注 ,如 图 5-2 所 
示 , 每 注 金额 人 民 币 2 元 。 


红 球 
oo ©@OOOOO 
开奖 号 码 


5-2 ”双色 球 示意 图 


单 式 投注 : 规则 中 的 “ 单 式 投注 "是 指 投注 者 每 次 只 选择 一 组 投注 号 码 ， 
例如 , 红 球 的 01、02、03、04、05、06 和 蓝 球 07, 或 者 红 球 15、08、13、14、03、30 和 
TEER 04( 如 图 5-2 所 示 ) 。 

复式 投注 : 与 单 式 投注 相对 的 是 复式 投注 。 复 式 投 注 是 指 ,投注 者 一 次 
选择 多 个 投注 号 码 ,一 次 性 购买 这 些 号 码 构成 的 所 有 可 能 的 投注 ,例如 ,投注 
者 复式 投注 红 球 01、02、03、04、05、06、07, 这 意味 着 ,投注 者 将 一 次 性 购买 由 
01、02、03、04、05、06、07 中 任意 6 个 构成 的 所 有 投注 号 码 , 包 括 “01、02、03、04、 
05,06” “01.02.03 ,04,05,07” “01.02.03 ,04,06,07” 

倍 投 : 成 倍 投注 的 简称 , 指 的 是 投注 者 对 同样 的 投注 号 码 进 行 重复 购买 ， 
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例如 ,对 红 球 的 01、02、03、04、05、06 和 蓝 球 07 这 组 号 码 进行 5 倍 投 ,意味 着 
投注 者 购买 了 5 组 同样 的 号 码 。 
双色 球 共 设 六 个 中 奖 等 级 ,规则 如 下 : 
一 等 奖 : 投注 号 码 与 当期 开奖 号 码 全 部 相同 ,奖金 浮动 ; 
二 等 奖 : 投注 号 码 与 当期 开奖 号 码 中 的 6 个 红色 球 号 码 相同 ,奖金 浮动 ; 
SER: 投注 号 码 与 当期 开奖 号 码 中 的 任意 5 个 红色 球 号 码 和 1 个 蓝 色 
球 号 码 相 同 ,奖金 3 000 元 ; 
0 等 奖 : 投注 号 码 与 当期 开奖 号 码 中 的 任意 5 个 红色 球 号 码 相同 ,或 与 任 
意 4 个 红色 球 号 码 和 1 个 蓝 色 球 号 码 相同 ,奖金 200 元 ; 
五 等 奖 : 投注 号 码 与 当期 开奖 号 码 中 的 任意 4 个 红色 球 号 码 相同 ,或 与 任 
意 3 个 红色 球 号 码 和 1 个 蓝 色 球 号 码 相同 ,奖金 10 元 ; 
KER: 投注 号 码 与 当期 开奖 号 码 中 的 1 个 蓝 色 球 号 码 相同 ,奖金 5 元 。 
其 中 ,一 等 奖 和 二 等 奖 的 奖金 与 每 期 的 彩票 销售 总 额 和 中 奖 人 数 有 关 , 属 
于 浮动 型 奖金 ,我 们 常 说 的 “大奖 500 万 ”只 是 一 等 奖 奖金 的 一 个 代称 。 


投注 策略 


下 面 , 我 们 来 计算 双色 球 的 中 奖 概率 。 双 色 球 是 一 个 典型 的 组 合 问题 , 红 
球 是 从 33 个 数字 中 选 出 6 个 , 蓝 球 是 从 16 个 数字 中 选 出 1 个 ,并 且 红 球 和 蓝 
球 之 间 互 相 独 立 。 我 们 假设 投注 者 购买 了 一 组 投注 号 码 ,那么 ,在 开奖 之 前 ， 
这 组 号 码 的 中 奖 概率 分 别 是 ， 

P( 中 一 等 奖 ) = V (Ch + Cis) = 0. 000 005 6% 

P( 中 二 等 奖 ) = Civ (Cis + Cis) = 0. 000 090% 

P( 中 三 等 奖 ) = (Ci + ChY (Chs + Cie) = 0. 000 91% 

P( 中 四 等 奖 ) = (Ch + Chr + Cle + C4 + ChY (Ch + Cis) = 0.044% 

P( 中 五 等 奖 ) = (C4 + Chr © Cle + C3 + ChY (Ch + Cie) = 0.81% 

PCPA SX) = V Ch = 6.25% 

这 组 号 码 不 中 奖 的 概率 是 : 

P( 未 中 奖 ) =1 一 P( 中 一 等 奖 ) 一 P( 中 二 等 奖 ) 一 P( 中 三 等 奖 ) 
一 P( 中 四 等 奖 ) — P( 中 五 等 奖 ) 一 P( 中 六 等 奖 ) 
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=92.90% 
双色 球 奖 项 ,中奖 概率 和 奖金 如 表 5-1 所 示 。 


表 5-1 双色 球 奖项 .中 奖 概率 和 奖金 


奖项 中 奖 概率 (%) 奖金 (元 ) 
一 等 奖 0. 000 005 6 浮动 
二 等 奖 0. 000 090 浮动 
三 等 奖 0.000 91 3 000 
四 等 奖 0. 044 200 
五 等 奖 0.81 10 
六 等 奖 6. 25 5 
未 中 奖 92. 90 0 


双色 球 一 共有 约 1 770 FCs + Cis) 组 可 能 的 号 码 , 要 中 一 等 奖 ,需要 所 
有 号 码 都 相同 ,因此 中 奖 的 概率 便 是 1 770 万 分 之 一 , 即 0.000 005 6%. WE 
球 每 周 销售 三 期 ,一 年 有 52 周 ,因此 ,一 年 里 我 们 可 以 投注 双色 球 约 150 次 ， 
如 果 每 次 单 式 投注 一 组 号 码 , 中 一 次 一 等 奖 平均 需要 11. 8 万 年 ,即使 每 次 投 
TE 100 组 号 码 , 平 均 也 需要 1 180 年 , 真 可 谓 “ 干 年 等 一 回 ”, 想 要 战胜 小 概率 事 
件 谈何容易 ! 

假定 一 等 奖 的 奖金 为 500 万 元 ,二 等 奖 的 奖金 为 50 万 元 ,一 组 单 式 投注 
号 码 的 奖金 期 望 是 ， 

E( 奖 金 ) =5 000 000 x P( 中 一 等 奖 ) +500 000 x P( 中 二 等 奖 ) 十 3 000 X 
P( 中 三 等 奖 ) 十 200 X P( 中 四 等 奖 ) 十 10 X P( 中 五 等 奖 ) 十 
5 X P( 中 六 等 奖 ) 
一 1. 24( 元 ) 
每 组 号 码 的 投注 金额 是 2 元 ,因此 ,一 组 号 码 的 收益 期 望 为 : 
E( 收 益 ) = 2 一 1. 24 = 一 0.76( 元 ) 

投注 者 每 购买 一 组 号 码 , 平 均 会 损失 0.76 元 。 

现在 ,我 们 知道 了 两 件 事 : 一 是 中 一 等 奖 的 概率 非常 低 ; 二 是 买 双色 球 不 
可 能 赚 到 钱 。 其 实 ,这 两 件 事 是 众所周知 的 ,我 们 只 是 用 数学 算式 验证 了 它们 
是 正确 的 。 那 么 ,投注 者 为 什么 还 要 买 彩票 呢 ?” 为 了 那 看 似 渺 茫 的 中 奖 机 会 ! 
不 管 中 奖 概率 有 多 低 , 总 有 人 中 大 奖 ,所 以 我 们 还 是 要 买 , 而 且 要 坚持 买 ! 那 
么 ,怎么 买 才 更 合理 呢 ? 或 者 换 一 种 问 法 ,有 没有 什么 方法 能 提高 中 奖 概率 ? 
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据 我 的 观察 , 买 双 色 球 的 人 大 约 用 三 种 方法 选择 号 码 : 第 一 种 是 机 选 ,你 
只 要 走 到 投注 网 点 , 掏 出 2 元 钱 ,来 一 注 机 选 ,投注 设备 会 随机 帮 你 选 出 一 组 
号 码 ; 第 二 种 是 守 号 ,你 躺 在 床上 冥 思 苦 想 出 一 组 号 码 ,里 面 可 能 包含 你 的 生 
日 和 你 的 幸运 数字 ,你 觉得 这 组 号 码 是 属于 你 的 独家 搭配 ,于 是 你 每 次 都 买 这 
组 号 码 ,高兴 了 还 会 来 个 倍 投 ; 第 三 种 是 自主 选号 ,每 当 买 彩 之 前 , AB BS 

一 阵子 ,神秘 的 第 六 感 指引 你 写 出 一 组 号 码 , 就 买 它 了 ! 

这 三 种 方法 的 区 别 在 于 两 点 : 一 是 号 码 由 机 器 选 出 还 是 你 自己 选 出 ;二 
是 每 次 买 的 号 码 相同 还 是 不 同 。 这 三 种 方法 的 共同 点 只 有 一 个 ,你 会 在 开奖 
之 前 买 一 组 号 码 , 而且 不 可 更 改 。 不 论 我 们 在 彩票 打印 出 来 之 前 做 了 什么 ,我 
们 都 会 花 2 元 钱 , 买 一 组 号 码 , 当 这 组 号 码 已 经 确定 之 时 ,一 切 的 选号 方法 都 
没有 意义 了 ,你 只 能 坐等 晚上 九 点 半 的 开奖 。 不 论 你 是 怎么 选 出 这 组 号 码 的 ， 
也 不 论 这 组 号 码 是 什么 ,此 时 此 刻 , 你 中 大 奖 的 概率 就 是 0. 000 005 6% ,不 会 
更 大 ,也 不 会 更 小 。 

总 有 些 人 不 死心 ,因为 他 们 相信 “大 数 定理 ”, 就 连 彩 票 网 站 上 也 会 提供 类 
似 如 图 5-3 所 示 的 号 码 走势 图 。 在 “大 数 定理 ”一 节 , 我 们 已 经 讨论 过 ,大 数 定 
理 并 不 会 使 硬币 的 正 反 两 面 出 现 的 次 数 越 来 越 接近 ,即使 连续 十 次 都 是 正面 ， 
我 们 依然 认为 第 十 一 次 出 现 正面 的 概率 是 50%%, 因 为 每 一 次 抛 搓 是 独立 的 。 
同 理 , 双 色 球 中 33 个 红 球 和 16 个 蓝 球 被 选 出 的 概率 也 是 相同 的 ,不 同期 的 选 
号 过 程 也 是 互相 独立 进行 的 ,所 以 ,研究 号 码 走势 纯粹 是 在 浪费 时 间 ! 浪费 时 
间 ! 浪费 时 间 ! 


@ nex geet» [Sete amet | ee | REM sere RANE TEMA GRRE cue 


红 球 : REE) AEN ARED | 和 信 走 势 | ANEB | AEEA | IMAN | Bake | SEEN | TH | REER HR: 基于 走势 | HH | ERE 
红 基 走势 | 红 球 三 分 区 走势 | 红 球 四 分 区 走势 | LAE Bione AEREN 
s2: O88 Diss 04S 0ER OERE OHREN 
net H-E HEE EE BCE 
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图 5-3 ”双色球 号 码 走势 图 
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“双色 球 ” 小 结 : 

(1) 一 等 奖 中 奖 概率 极 低 ; 

(2) 坚持 买 双色 球 不 可 能 赚 到 钱 ; 

(3) 选号 方法 对 中 奖 概率 没有 任何 影响 
(4) 研究 号 码 走势 没有 意义 ; 

(5) 切记 小 赌 怡 情 。 


53 是 彩 : RUM, 更 爱 足 彩 


1998 年 法 国 世 界 杯 让 我 受 上 了 足球 ,从 圣 西 罗 到 威 斯 特 法 轮 , 从 西班牙 国 
家 德比 到 英超 双 红 会 ,我 一 直 是 欧洲 联赛 的 忠实 观众 。 看 球 久 了 ,自然 喜欢 上 
了 猜 球 一 一 猜 胜 负 、 猜 比分 , 猜 球 终归 不 过 瘾 ,就 开始 买 足彩 。 

足球 彩票 ,简称 足彩 ,是 起 源 于 欧洲 的 体育 类 彩 种 。 在 欧美 地 区 ,足彩 由 
合法 注册 的 博彩 公司 负责 销售 。 我 国 的 足彩 起 步 较 晚 ,于 2001 年 10 月 上 市 ， 
由 中 国体 彩 中 心 负责 销售 。 从 2001 年 至 今 ,足彩 的 玩法 几经 变化 ,现行 的 玩 
法 包括 14 场 胜 负 彩 、 任 选 9 场 胜 负 彩 、 进 球 彩 、 半 全 场 等 。 与 数字 型 彩票 相 
比 ,足彩 包含 的 元 素 要 丰富 得 多 , 赛 前 有 关 球 队 的 打 法 .状态 ,心态 . 赔 率 甚 至 
花边 新 闻 都 是 玩家 们 关心 的 话题 ,而 且 一 场 足 球 比 赛 有 90 分 钟 ,在 如 此 长 的 
奖 时 间 ” 里 ,比赛 结果 随时 可 能 会 变化 , 补 时 阶段 的 一 个 进 球 , 既 可 能 让 你 
喜 中 大 奖 ,也 可 能 使 你 与 大 奖 失 之 交 辟 ,这 就 是 足彩 令 人 着 迷 之 处 。 

我 曾 短暂 地 沉迷 于 足彩 ,还 中 过 两 次 小 奖 ,但 是 我 对 足彩 的 认识 一 直 停留 
在 感性 层面 ,在 学 习 了 概率 统计 后 ,我 尝试 着 用 概率 统计 的 方法 分 析 足 彩 , 接 
下 来 ,我 以 14 场 胜 负 彩 为 例 ,与 大 家 分 享 我 的 足彩 心得 。 


投注 规则 


14 场 胜 负 彩 的 投注 规则 是 : 以 14 场 比赛 的 最 终结 果 进行 投注 ,每 场 比赛 
的 结果 分 为 “ 胜 、 平 . 负 ” 三 种 ,“ 胜 ”表示 主场 球 队 取 胜 ,“ 平 ”表示 两 队 打 平 ， 
“ 负 ” 表 示 主 场 球 队 告 负 。 例 如 ,第 16069 期 胜 负 彩 共 竞 猜 14 场 比 赛 , 如 图 5-4 
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所 示 , 每 场 比赛 挑选 一 个 结果 ,构成 一 组 投注 ,每 注 金额 人 民 币 2 元 。 


英 超 05-0121:05 县 B vs 莱 切 断 特 


1 
l2 mB 050123.30 BRER vs 县 hi 
|a 意 Ẹ@ 05-01 21:00 ACK= vs 弗 洁 西 诺 
|4 总 用 050121:00 TRH vs 博洛尼亚 
|s 意 P 05-01 21:00 BHR vk # 
Le 意甲 050121:00 BRE vs BEA 

7 意甲 。 05-02 02:45 拉齐奥 vs 国际 米兰 
| 8 西甲。 05012200 西班牙 人 vs SEHI 
| 9 BR 05020015 拉 A vs SEES 

10 = A  05-0202:30 巴 伦 西亚 vs HAIE 

1 法 甲 05-01 23:00 & 热 vS 马 E 
| 12 PARI 05-01 21:00 法 尔 肯 堡 VS 埃 夫 斯 堡 
| 13° ARAB 。 05-01 23:30 哈 马 比 vs UATR 
l4 mB 05.01 23:30 SURE vs Ht 根 


5-4 第 16069 期 胜 负 彩 场次 


14 场 胜 负 彩 设置 两 个 奖项 : 

一 等 奖 : 猜 中 全 部 14 场 比赛 的 胜 平 负 结 果 , 浮 动 奖金 ; 

二 等 奖 : 猜 中 其 中 13 场 比 赛 的 胜 平 负 结 果 , 浮 动 奖金 。 

下 面 ,我 们 来 计算 14 场 胜 负 彩 的 中 奖 概率 。 

每 场 比赛 有 “ 胜 \ 平 . 负 ” 三 种 结果 ,因此 ,假设 猜 中 的 概率 为 V 3。14 场 胜 
负 彩 是 一 个 典型 的 14 重 伯 努 利 试验 ,每 一 场 比赛 就 是 一 次 试验 ,因此 ,我 们 可 
以 应 用 二 项 分 布 来 计算 中 奖 概率 。 

一 等 奖 要 求 14 场 全 部 猜 中 ,所 以 中 奖 概率 为 : 

P( 中 一 等 奖 ) = (1/ 3) = 0. 000 021% 
二 等 奖 要 求 猜 中 13 场 , 所 以 ,中 奖 概率 为 ， 
P( 中 二 等 奖 ) = Cit X (7 3)* X (2 3) = 0. 000 59% 
计算 结果 说 明 ,14 场 胜 负 彩 的 中 奖 概率 非常 低 , 与 数字 型 彩票 相似 。 


投注 技巧 


虽然 足彩 的 中 奖 概率 很 低 , 但 相 比 于 完全 随机 的 数字 彩 ,足彩 是 可 以 利用 
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一 些 技巧 来 提高 中 奖 概率 的 。 

技巧 一 : 学 会 看 赔 率 

足球 赔 率 分 为 欧洲 赔 率 和 亚洲 赔 率 两 种 。 

欧洲 赔 率 的 一 般 形 式 是 : 

皇马 VS 拜仁 2.25 3.00 3.25 

这 是 一 场 欧洲 冠军 杯 比 赛 一 一 皇马 主场 对 阵 拜 仁 的 欧洲 赔 率 , 其 中 的 
三 个 数字 2. 25、3. 00 和 3. 25 依次 表示 胜 、 平 . 负 的 赔 率 ,这 三 个 赔 率 的 含 
义 是 ， 

假如 你 投注 100 元 赌 皇马 胜 ,皇马 果真 取胜 ,你 会 得 到 225 TARE). 
否则 你 输 掉 100 元 ; 

假如 你 投注 100 元 赌 两 队 打 平 ,两 队 果 真 打 平 ,你 得 到 300 元 ( 含 本 金 )， 
否则 你 输 掉 100 元 ; 

假如 你 投注 100 元 赌 皇马 输 球 ,皇马 果然 输 球 ,你 得 到 325 元 ( 含 本 金 )， 
否则 你 输 掉 100 元 。 

一 般 来 说 , 胜 、 平 . 负 三 个 结果 中 , 赔 率 最 低 的 是 博彩 公司 最 看 好 的 结果 。 

亚洲 赔 率 的 一 般 形 式 是 : 

皇马 VS 拜仁 让 PF BR 

仍然 是 皇马 对 阵 拜 仁 的 比赛 ,亚洲 赔 率 给 出 的 赔 率 是 “主队 让 平手 或 半 个 
球 ”。 在 亚洲 赔 率 中 ,看 好 主队 则 “让 ”, 看 好 客队 则 * 受 让 ”, 在 “让 ”或 “ 受 让 ”后 
边 , 会 出 现 “ 平 拖 / 半球”“ 半 球 ”“ 一 球 ”“ 一 球 半 ” 等 ,表示 赔 率 的 大 小 。 例 如 ， 
“让 一 球 ” 表 示 主 队 至 少 赢 客队 一 个 球 ,“ 让 两 球 ” 表 示 主 队 至 少 赢 客 队 两 个 球 ， 
“让 两 球 ” 比 “让 一 球 ” 更 能 展现 出 赔 率 对 主队 获胜 的 信心 。 除 了 让 球 ,亚洲 赔 
率 中 还 有 贴 水 ,用 于 计算 奖金 ,类 似 于 欧洲 赔 率 中 的 三 个 数字 ,此 处 不 再 详 述 。 
此 外 ,投注 者 一 定 要 注意 ,各 个 博彩 公司 的 赔 率 会 随时 变化 ,直到 比赛 结束 , 投 
注 者 只 需 把 赔 率 当 作 两 队 实力 对 比 的 参考 指标 ,不 必 刻 意 关注 其 中 的 细微 
变化 。 

技巧 二 : 学 会 实力 分 析 

如 果 我 问 你 : 今 晚 西 甲 联赛 , 皇 家 马德里 队 主场 对 阵 希 洪 竞技 队 , 你 认为 
谁 会 赢 ? 不 管 懂 球 还 是 不 懂 球 ,你 一 定 都 想 ,皇马 这 么 强 ,怎么 会 不 赢 ? 但 是 ， 
足球 场 上 ,一 切 皆 有 可 能 ! 要 真正 提高 猜 中 的 概率 ,就 要 学 会 对 两 支 球 队 做 实 
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力 分 析 , 从 综合 实力 、 竞 技 状态 、 求 胜 欲望 .历史 交锋 战绩 、 关 键 球员 伤 停 等 诸 
多 方面 来 分 析 两 支 球 队 , 然 后 才能 做 出 更 加 准确 的 判断 。 比 如 ,2015 一 2016 赛 
季 的 英超 联赛 中 ,上 赛季 冠军 切尔西 队 表现 糟糕, 仅仅 排 在 联赛 中 游 ,赛季 初 
更 是 一 度 掉 入 降级 区 ,而 阿森 纳 队 一 如 既往 地 处 在 联赛 前 四 名 。 但 当 两 队 相 
遇 时 , 笑 到 最 后 的 依然 是 切尔西 队 , 仿 佛 是 两 支 球 队 近 年 来 多 次 交锋 的 重演 ， 
这 就 是 球 风 相 克 的 典型 代表 。 实 力 分 析 包 含 很 多 方面 ,对 不 同 的 比赛 ,我 们 要 
分 清 优先 级 ,有 时 历史 战绩 更 重要 ,有 时 球 队 竞技 状态 更 关键 ,其 中 技巧 留 作 
足彩 投注 者 们 仔细 品味 吧 。 

技巧 三 : 正确 理解 “冷门 ” 

所 谓 冷门 ,就 是 出 人 意料 的 比赛 结果 ,比如 ,2015 一 2016 赛季 的 西甲 联赛 
中 ,巴塞 罗 那 队 在 主场 1: 2 负 于 排名 中 游 的 瓦 伦 西 亚 队 , 这 就 是 个 大 冷门 。 
回顾 足彩 的 历史 记录 ,我 们 不 难 发 现 ,冷门 似乎 常常 会 发 生 ,这 看 似 不 正常 的 
现象 其 实 有 合理 的 解释 。 经 统计 , 强 弱 差距 很 大 的 比赛 , 强 队 取胜 的 概率 可 达 
70% ,每 一 期 足彩 的 14 场 比 赛 中 ,往往 有 3 一 5 场 这 样 的 比赛 ,以 3 场 为 例 ,不 
出 现 冷 门 需要 三 支 强 队 同时 取胜 ,其 概率 为 

P( 三 支 强 队 同 时 获胜 ) = (70%)? = 34.3% 

出 现 一 场 冷 门 的 概率 为 : 
P( 一 支 强 队 未 取胜 ) = Ci X (70%)? X (30%) = 44.1% 
出 现 两 场 冷门 的 概率 为 ， 

P( 两 支 强 队 未 取胜 ) = C3 X (70%) X (30%)? = 18.9% 

三 场 均 出 现 冷 门 的 概率 为 : 

P( 三 支 强 队 均 未 取胜 ) = (0.3) = 2.7% 

对 比 上 面 的 结果 可 以 发 现 , 出 现 冷 门 的 概率 (65.7%) 比 不 出 现 冷门 的 概 
率 (34. 3%) 要 高 得 多 ,而 且 , 出 现 一 场 冷门 的 概率 最 高 。 所 以 ,14 场 比赛 中 常 
会 出 现 一 场 甚 至 两 场 冷 门 ,这 正 是 二 项 分 布 的 神奇 之 处 ! 

将 上 述 结论 推 而 广 之 ,可 以 得 到 两 个 推论 : 一 是 如 果 强 弱 分 明 的 比赛 有 
4 场 .5 场 甚至 更 多 ,冷门 不 出 现 的 概率 会 更 低 ;二 是 在 强 队 获胜 概率 为 70% 的 
假设 下 ,不 论 强 弱 分 明 的 比赛 有 3 场 ,4 场 还 是 5 场 ,出 现 一 场 冷门 的 概率 都 是 
最 高 的 。 读 者 可 以 验证 一 下 这 两 个 推论 是 否 正确 。 

既然 冷门 很 可 能 会 发 生 , 刻 意 选择 冷门 结果 更 合理 吗 ? 要 回答 这 个 问 
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题 ,我 们 首先 要 知道 ,足彩 的 奖金 是 由 中 奖 的 投注 平均 分 配 的 ,同样 是 1 000 
万 元 的 奖金 总 额 ,如 果 有 5 注 彩 票 中 奖 , 则 每 注 奖 金 200 万 元 ,如 果 有 50 注 
中 奖 , 则 每 注 奖金 20 万 元 。 下 面 ,我 们 就 来 算 一 算 , 什 么 情况 下 选择 冷门 更 
合理 。 
假设 彩民 正在 进行 单 场 比赛 竞猜 ,比赛 结果 分 为 胜 、 平 、 负 三 种 ,投注 共计 
100 注 , 由 于 主队 实力 远 胜 于 客队 ,其 中 90 注 选择 胜 ,5 注 选择 平 ,5 注 选 择 负 ， 
总 奖金 为 100 元 ,由 猜 中 者 平均 分 配 。 在 下 列 两 种 假设 条 件 下 ,计算 三 种 投注 
的 奖金 期 望 值 : 

条 件 1: 强 队 取 胜 、 打 平和 告 负 的 概率 为 90%、5% 和 5%; 

条 件 2: 强 队 取胜 、 打 平和 告 负 的 概率 为 70%、15% 和 15%。 

根据 奖金 分 配 规 则 , 胜 、 平 . 负 三 种 投注 的 奖金 分 别 为 10% 90, 100/ 5 和 
100 5, 当 条 件 1 成 立时 ,三 种 投注 的 奖金 期 望 值 分 别 是 : 

E( 投 注 胜 的 奖金 )= 二 90% X100/ 90= 1050) 

E( 投 注 平 的 奖金 )= 二 5%X100% 5 二 1( 元 ); 

E( 投 注 负 的 奖金 )= 二 5%X100% 5 二 1( 元 )。 

当 条 件 2 成 立时 ,三 种 投注 的 奖金 期 望 值 分 别 是 ， 

E( 投 注 胜 的 奖金 )= 二 70% X10 90=0. 780%); 

E( 投 注 平 的 奖金 )= 二 15% X10 5 二 3( 元 ); 

E( 投 注 负 的 奖金 )=15%X100/ 5=3( 元 )。 

通过 对 比 两 组 计算 结果 ,我 们 可 以 发 现 , 当 三 种 结果 的 投注 比例 与 发 生 概 
率 不 同时 ,不 同 投注 结果 的 奖金 期 望 值 是 不 同 的 ,平均 意义 上 讲 , 小 概率 事件 
由 于 奖金 更 高 反而 比 大 概率 事件 获得 的 奖金 更 多 ,这 就 是 利用 冷门 提高 奖金 
期 望 值 的 方法 。 在 购买 足彩 时 ,我 们 应 当 留 心 那 些 可 能 爆 冷 的 比赛 , 当 你 认为 
强 队 的 获胜 概率 被 高 估 了 ,就 应 当 坚 决 的 选择 冷门 结果 ! 

我 们 尝试 把 上 面 的 策略 推广 到 多 场 比赛 。 

假设 我 们 竞猜 两 场 比赛 的 胜 平 负 结果 , 投注 共 计 100 注 , 总 奖金 100 元 ， 
投注 结果 如 表 5-2 所 示 。 两 场 比 赛 中 强 队 取胜 、 打 平和 告 负 的 概率 分 别 为 
70%、15% 和 15%, 此 时 , 哪 一 种 投注 方式 的 奖金 期 望 更 高 ? 


all 
ir 
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表 5-2 两 场 比赛 的 投注 结果 


胜 胜 60 
胜 平 9 
胜 负 9 
平 胜 9 
YF 1 
1 
9 
1 
1 


FR 
负 胜 
负 平 
负 负 


这 9 种 投注 方式 的 奖金 期 望 是 ， 

EHEHE) =70% X 70% X100 60 王 0.82( 元 ); 

EGEF) =70% X15% X100 9=1. 17030) s 

EEH) =70% X15% X100/ 9=1. 17( 元 ); 

ECF HE) =70% X15% X10 9=1. 17050) 

EQGRE)=15% X15% X 100=2. 25050) + 

ECE) =15% X15% X100=2. 25050) s 

ECHE) =70% X15% X100 9=1. 17( 元 ); 

E( fF) =15% X15% X 100=2. 25(50) s 

ECAH) =15% X15% X100=2. 2500). 

由 此 可 见 ,平均 意义 上 ,投注 两 场 都 出 冷门 依然 是 获 利 更 高 的 投注 方式 。 
虽然 计算 结果 与 假设 条 件 密 切 相关 ,但 不 可 否认 的 是 , 搏 冷 门 并 非 冲动 之 举 ， 
是 有 概率 原理 支持 的 。 不 过 ,我 并 不 鼓励 投注 者 全 力 搏 冷 门 ,可 以 预见 的 是 ， 
如 果 我 们 要 投注 3 场 比赛 ,全 部 选择 冷门 结果 的 奖金 期 望 会 低 于 选择 一 场 或 
两 场 冷门 的 投注 。 所 以 , 搏 冷 门 绝 非 多 多 益 善 。 

技巧 四 : 合理 进行 复式 投注 

足彩 中 的 复式 投注 是 指 , 同 时 选择 一 场 的 多 个 结果 ,然后 把 所 有 可 能 结果 
的 组 合 一 起 购买 。 例 如 ,下 面 两 场 比赛 , 

皇家 马德里 VS 瓦 伦 西亚 
巴塞 罗 那 VS 马德里 竞技 
单 式 投注 是 类 似 “ 胜 胜 ”“ 胜 平 ”? 的 投注 ,复式 投注 则 是 类 似 “ 胜 、 胜 平 “ 胜 
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负 、 胜 平 ” 的 投注 。 当 你 投注 “ 胜 、 胜 平 " 时 ,意味 着 你 购买 了 两 注 单 式 一 一 “ 胜 
胜 ” 和 “ 胜 平 ”, 投 注 “ 胜 负 、 胜 平 ”? 则 相当 于 投注 了 四 注 单 式 。 

买 过 足彩 的 朋友 一 定 会 纠结 一 个 问题 : 如 何 利用 复式 投注 预防 冷门 ”以 
上 面 两 场 比赛 为 例 ,皇家 马德里 和 巴塞 罗 那 在 主场 取胜 的 概率 自然 很 高 ,可 是 
我 们 已 经 知道 了 , 捕 冷 门 可 以 提高 奖金 期 望 值 ,那么 ,如 果 人 允许 复 式 投注 ,我 们 
应 当 怎 么 做 呢 ? 

以 皇家 马德里 VS 瓦 伦 西亚 的 比赛 为 例 , 仍 然 假设 皇家 马德里 赢 球 的 概 
率 是 70%, 打 平和 输 球 的 概率 各 为 15% ,投注 总 计 100 注 , 其 中 90 注 选择 胜 ， 
5 注 选 择 平 ,5 注 选 择 负 ,总 奖金 依然 是 100 元 。 此 时 ,我 们 进行 复式 投注 , 同 
时 选择 两 个 结果 ,该 如 何 选 择 ? 

选择 两 个 结果 ,有 三 种 可 能 的 组 合 一 一 “ 胜 平 “ 胜 负 ” 和 * 平 负 ”, 分 别 计算 
三 种 选择 的 奖金 期 望 ,可 以 得 到 : 

E( 胜 平 的 奖金 )= 二 70% X100 90+15% X100 5 二 3.78( 元 ); 

E( 胜 负 的 奖金 )==70% X100 90 十 15%X100 5 二 3.78( 元 ); 

EE( 平 负 的 奖金 )==15% X100/ 5 十 15%X100 5==6( 元 )。 

计算 结果 说 明 ,“ 平 负 ” 的 奖金 期 望 值 最 高 ,对 于 一 场 比赛 来 说 ,如 果菜 支 
球 队 被 高 估 , 那 么 放弃 热门 结果 ,全 部 选择 冷门 结果 是 更 合理 的 。 这 个 结论 同 
样 不 能 简单 外 推 至 多 场 比赛 ,这 与 前 文 对 冷门 的 讨论 类 似 。 

“14 场 胜 负 彩 ” 总 结 : 

(1) 一 ,二 等 奖 的 中 奖 概率 极 低 ; 

(2) 博彩 公司 的 赔 率 可 以 作为 实力 对 比 的 参考 指标 ; 

(3) 要 懂 球 ,会 做 基本 的 实力 分 析 ; 

(4) 可 以 挑选 一 场 或 两 场 强 弱 分 明 的 比赛 ,用 单 式 或 复式 投注 搏 冷 门 。 


54 得 州 扑克 : 我 不 是 教 你 诈 


在 东北 ,着 年 过 节 打 麻将 、 打 扑克 是 每 个 家 庭 必 备 的 娱乐 项 目 , 我 家 也 不 
例外 。 在 我 还 很 小 的 时 候 , 麻 将 是 我 的 强项 ,我 要 赢 钱 几乎 不 需要 技巧 ,因为 
大 人 们 的 手气 从 来 都 比 不 过 一 个 6 岁 的 孩子 ! 也 正 因 为 这 个 ,大 人 们 渐渐 开 
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始 不 欢迎 我 ,后 来 ,我 只 好 坐 在 令 头 跟 堂 哥们 打 扑 克 了 。 我 有 两 位 堂 哥 , 大哥 
大 我 六 岁 , 二 哥 大 我 两 岁 。 大 哥 会 教 我 们 玩 很 多 种 扑克 游戏 一 一 蚀 乏 、 升 级 、 
红 十 ,他 似乎 什么 都 会 玩 。 这 些 扑克 游戏 虽然 需要 技巧 ,但 也 依靠 手气 ,所 以 
我 依然 可 以 靠 手气 赢 到 钱 。 唯 独 有 一 个 游戏 ,我 没 法 赁 手气 赢 到 钱 ,这 个 游戏 
叫 作 “ 帕 斯 ”。 

“ 帕 斯 ”, 是 我 们 的 口头 叫 法 ,大 概 是 *PASS” 的 音译 ,玩法 很 简单 。 拿 来 一 
副 扑 克 牌 ,去掉 大 小 王 , 剩 下 52 张 。 几 个 人 围 坐 一 圈 , 每 轮 每 人 摸 一 张 牌 , 一 
共 摸 五 轮 , 前 两 轮 牌 面向 下 ,后 三 轮 牌 面向 上 ,最 后 ,比较 五 张 牌 的 大 小 , 牌 最 
大 的 玩家 算 赢 。 在 每 轮 发 牌 之 后 ,按照 明 牌 的 大 小 顺序 依次 下 注 , 后 一 个 玩家 
可 以 选择 跟 注 、 加 倍 或 弃 牌 , 跟 注 就 是 与 上 家 下 注 同 样 的 赌 金 , 加倍 则 表示 你 
要 比 上 家 下 注 的 多 一 倍 \ 两 倍 甚至 三 倍 , 每 当 有 玩家 加 倍 ,其 他 玩家 必须 跟 注 
同样 的 赌 金 才能 继续 留 在 赌局 中 , 弃 牌 则 意味 着 退出 游戏 , 输 掉 此 前 下 注 的 所 
有 赌 金 。“ 帕 斯 "最 有 意思 的 部 分 是 “ 诈 ”, 这 恰恰 是 大 哥 最 擅长 的 ,也 恰恰 是 我 
最 不 擅长 的 。 所 谓 “ 诈 ”, 就 是 “ 诈 哮 ”, 用 加 倍 来 诈 吵 对 手 , 让 对 手 弃 牌 ,不 战 而 
胜 。 大 哥 是 “ 诈 距 ”高手 , 他 亦 虚 亦 实 的 “ 诈 距 ” 让 我 防不胜防 ,即使 我 可 以 赁 手 
气 赢 下 几 局 ,也 难 逃 输 钱 的 结果 。 长 大 以 后 ,我 方才 知道 ， 帕 斯 ”是 一 种 知名 
扑克 游戏 的 变种 , 它 就 是 “得 州 扑克 ”。 

得 克 萨 斯 扑克 ,简称 得 州 扑克 ,起 源 于 20 世纪 初 的 美国 得 克 萨 斯 州 洛 布 
斯 镇 ,传播 至 赌 城 拉 斯 维 加 斯 后 ,被 广 为 传 播 。 得 州 扑克 是 每 年 世界 扑克 大 赛 
的 主要 赛事 ,在 当下 的 美国 非常 流行 ,近年 来 , 随 着 网 络 社交 游戏 进入 我 们 的 
生活 ,得 州 扑克 在 中 国 也 逐渐 流行 起 来 。 得 州 扑克 与 “ 帕 斯 ? 非 常 相近 的 一 点 
是 “ 诈 ”, 比 “ 帕 斯 " 更 刺激 的 是 ,得 州 扑克 是 无 限 下 注 游 戏 , 即 玩家 加 倍 下 注 时 
可 以 加 注 任意 多 的 赌 金 ,甚至 “梭哈 ”一 一 下 注 全 部 赌 金 。“ 诈 ”固然 是 一 种 赢 
钱 的 手法 ,但 是 仅仅 依靠 “ 诈 ”, 你 一 定 赢 不 到 钱 , 因 为 “得 州 高 手 ”能 识破 你 的 
“ 诈 ”! 接 下 来 ,我 们 回归 理性 ,从 概率 统计 的 角度 解读 得 州 扑克 , 助 你 迈 出 “得 
州 高 手 ”的 第 一 步 ! 


游戏 规则 


得 州 扑克 的 规则 如 下 所 述 。 


要 进行 下 注 ， 
倍 , 上 不 封顶 。 
较 大 小 。 


的 


出 
Kl, 


的 


台面 围 4 


始 发 公共 牌 , 公 共 牌 牌 面向 


五 张 牌 就 是 玩家 的 牌 面 大 小 。 
得 州 扑克 在 比较 牌 面 大 4 


了 得 州 扑克 


Fi 


比较 的 方法 是 : P 


BA 2~10 人 ,使 用 一 
家 分 两 张 牌 ,作为 “底牌 ”底牌 牌 面 向 下 ,每 个 玩家 只 知道 
上 ,一 共 五 张 。 在 底牌 和 每 张 
同样 分 为 跟 
所 有 公共 牌 都 
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副 扑克 牌 , 去 掉 大 小 王 , 共 52 张 牌 。 每 个 玩 


注 、. 加 倍 和 弃 牌 ,加 倍 最 低 要 


己 的 底牌 。 然 后 ， 
公共 牌 发 完 后 ,都 
是 上 一 个 玩家 的 两 


发 完 并 且 所 有 下 注 都 完成 
底牌 与 五 张 公共 牌 混 合 后 ， 


后 ,所 有 玩家 摊牌 , 比 


所 能 选 出 的 最 “大 ” 


牌 型 大 小 顺序 。 


\ 时 ,首先 比较 牌 型 , 牌 型 大 的 是 赢家 , 表 5-3 列 
例如 ,图 5-4 是 XYZ 三 个 玩家 的 牌 局 示意 


X 的 牌 型 是 顺 子 (由 底牌 锡 6、 员 7 和 公共 脾 唱 9、 全 8、 全 5 组 成 ),Y 的 牌 型 


是 三 条 (由 
Wwe A 和 公共 
牌 型 


都 更 大 ,X 是 赢家 。 


ESN MS 5S FIZ: 


表 5-3 得 州 扑克 牌 型 


ERO 5. MAK 组 成 ),Z i 
EAA OK, 条 9 .多 8 组 成 ) ,根据 牌 型 的 大 小 顺序 ,X 比 Y 和 Z 


牌 型 是 一 对 (由 底 


BA” FIAI LI 0904 MA BE = FI EE 
TVA LEAT A ALOT, O59 d 


牌 ”型 示 例 t OF 
皇家 同花顺 PA YK YQ YI VIO 最 大 为 A 的 同花顺 
同花顺 pI eS $7 heb eS 花色 相同 的 顺 子 

四 条 A5 95 5 5 8 四 张 牌 点 数 相同 
= WK BK OK 43 93 三 条 和 一 对 的 组 合 
同 花 A2 A547 AJ AA 花色 相同 的 五 张 牌 
顺 子 3 IE EE DE Zi 点 数 相连 的 五 张 牌 
三 条 O7 07 A7 AQAK 三 条 和 两 张 散 牌 
两 对 5 A5 ho O9 AK 两 个 对 子 

一 对 OQ 4Q 93 647 一 个 对 子 和 三 张 散 牌 
散 牌 VA 4Q &) Y5 五 张 散 牌 


若 牌 型 相同 , 则 按照 牌 型 从 大 到 小 比较 点 数 ,例如 “3、 吊 3、 多 3、 转 人 、 
由 于 9 点 大 于 3 点 ， 


HUH. MA EOK 大 ,因此 前 者 大 。 


下 


下 ,我 们 就 从 玩家 的 角度 来 研究 一 下 得 州 扑克 中 的 概率 原理 。 


BSF OK. VQ. OJ VI 8" AE 
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A 
y 
¥ 
oy 9 ia Se & | haw 4 wey 
yy & ry & vv 
a as | eel 9 Ye Jla as 
玩家 X 的 底牌 玩家 了 的 底牌 玩家 Z 的 底牌 
图 5-5 得 州 扑 克 牌 局 示意 图 
发 牌 前 


在 每 一 局 发 牌 前 ,我 们 对 可 能 出 现 的 结果 应 该 心中 有 数 。 公 共 牌 有 5 张 ， 
再 算 上 玩家 手中 的 底牌 ,一 共 是 7 张 ,因此 ,我 们 需要 计算 出 两 张 概率 表 : 一 是 
5 张 牌 出 现 各 种 牌 型 的 概率 ,如 表 5-4 所 示 ; 二 是 7 张 牌 出 现 各 种 牌 型 的 概率 ， 
如 表 5-5 所 示 。 其 计算 过 程 涉及 排列 组 合 的 知识 , 表 5-4 中 给 出 了 计算 公式 ， 
供 读者 参考 。 


表 5-4 5 张 牌 出 现 各 种 牌 型 的 概率 


d 型 出 现 概率 (%) 计算 公式 
皇家 同花顺 0. 000 15 Pi =y CR 
同花顺 0. 001 4 P: =4X Y Ci, 
四 条 0. 024 P; =13 X Ciy Ch 
ZW 0. 14 P,=13 XC} X12 XCY Ch 
司 花 0. 20 P; =(4X Ci; —4X 10 Ch 
顺 子 0. 39 Pe 一 (45 一 4X CR 
三 条 2.11 P,=13XC} XC XOXO CY 
两 对 4.75 Ps=Cis * Cf» Ci Ch Ce 
一 对 42. 26 P,=13XCi XC XCi XCi XCY C, 
散 牌 50.12 Po =1—P,—P;—P,—P,—P;—P,—P,—P,—P, 
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表 5-5 7 张 牌 出 现 各 种 牌 型 的 概率 


牌 型 出 现 概率 (%) 
皇家 同花顺 0. 003 2 
同花顺 0. 028 
四 条 0. 17 
三 带 三 2. 60 
同 花 3. 03 
HF 4, 62 
=% 4, 83 
两 对 23. 50 
一 对 43. 82 
散 牌 17. 41 


观察 表 5-4 可 以 发 现 ,5 张 牌 出 现 皇 家 同花顺 ,同花顺 和 四 条 的 概率 非常 
低 ,出 现 三 带 二 、 同 花 和 顺 子 的 概率 也 比较 低 , 出 现 三 条 和 两 对 的 概率 略 高 一 
点 ,最 可 能 出 现 的 是 一 对 和 散 牌 。 这 样 的 概率 分 布 可 以 帮助 我 们 粗略 的 判断 
公共 牌 可 能 出 现 哪些 情况 。 

观察 表 5-5 可 以 发 现 ,7 张 牌 出 现 皇 家 同花顺 ,同花顺 和 四 条 的 概率 依然 
非常 低 ,出 现 三 带 二 、 同 花 \ 顺 子 和 三 条 的 概率 稍 高 ,最 可 能 出 现 的 三 种 牌 型 依 
次 是 散 牌 ,两 对 和 一 对 。7 张 牌 与 5 张 牌 的 概率 分 布 出 现 了 明显 的 不 同 ,三 带 
二 \` 同 花 和 顺 子 出 现 的 概率 小 幅 提 高 了 ,两 对 出 现 的 概率 大 幅度 提高 ,此 外 , 散 
牌 和 对 子 出 现 的 概率 降低 了 。 

在 不 考虑 其 他 条 件 的 情况 下 ,我们 可 以 利用 上 述 的 两 个 概率 分 布 表 预知 
两 件 事 : 

CL) 公共 有 牌 很 可 能 会 出 现 散 牌 或 一 对 ; 

(2) 每 个 玩家 最 后 的 牌 型 很 可 能 是 散 牌 、 两 对 或 一 对 。 


底牌 


每 个 人 的 底牌 有 两 张 ,这 两 张 牌 是 你 的 “秘密 武器 ”, 格 外 关键 。 在 得 州 扑 
克 的 牌 局 中 ,有 些 作风 保守 的 人 , 拿 到 诸如 “梅花 8, 方 块 2” 这 样 的 底牌 时 ,会 
直接 弃 牌 ,有 些 人 则 不 论 底牌 怎么 差 也 不 弃 牌 ,底牌 到 底 有 多 重要 ? 我 们 来 算 
一 算 。 
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从 玩家 的 角度 来 看 ,他 只 能 看 到 自己 的 底牌 ,因此 ,这 相当 于 从 52 张 牌 中 
挑选 2 张 牌 ,这 2 张 牌 可 能 出 现 的 牌 型 和 对 应 的 概率 如 表 5-6 所 示 。 这 张 表 告 
诉 我 们 ,底牌 摸 到 一 对 的 概率 仅 有 5. 88%% ,所 以 绝 大 多 数 时 候 底 牌 都 不 是 对 
子 ;至 少 摸 到 一 张 A 的 概率 高 达 14.9% ,我 相信 比 大 多 数 人 预想 的 高 得 多 ;至 
少 一 张 牌 不 小 于 丁 的 概率 高 达 52. 49% ,因此 如 果 你 摸 到 的 底牌 全 都 比 10 小 
且 不 是 对 子 , 那 么 你 的 手 牌 很 可 能 不 是 牌 局 中 最 大 的 ,换言之 ,除非 公共 牌 对 


你 很 有 利 ,否则 你 应 该 谨慎 下 注 。 


Fe 5-6 底牌 的 牌 型 和 出 现 概率 


牌 型 出 现 概率 (%》 
一 对 5.88 
非 一 对 94.12 
特定 数字 的 一 对 (dé 
CAMA KOK. Y5 %5) aen 
某 个 非 对 子 牌 型 Ea 
(SLM KOIG5 $1) : 
至 少 一 张 A P 
(BMA AMDOA BAD sa 
至 少 一 张 不 小 于 K 
MAKAI VA $5) AROR 
至 少 一 张 不 小 于 Q ab 
CPIM MK OIG Q %5) i 
至 少 一 张 不 小 于 1 
CMGI 第 6、Q5 $2) 2 


公共 牌 


在 拿 到 底牌 后 ,每 个 玩家 都 对 公 


出 现 的 概率 是 多 少 吗 ? 


共 牌 充满 期 待 。 可 是 ,你 知道 你 期 待 的 牌 


比如 ,玩家 的 底牌 是 “ 黑 桃 8, 红 桃 8”, 这 牌 还 算 不 错 , 但 玩家 还 希望 公共 


牌 中 再 出 现 至 少 一 个 8, 这 样 一 来 获胜 的 概率 会 高 很 多 。 要 精确 计算 “公共 牌 
中 至 少 出 现 一 个 8 ”的 概率 很 困难 ,因为 我 们 站 在 玩家 的 视角 ,无 法 看 到 其 他 玩 
家 的 底牌 ,所 以 我 们 只 能 估算 : 
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了 (公共 牌 中 至 少 出 现 一 个 8) = (Co 一 CiaX Co = 19.2% 

这 说 明 , 在 公共 牌 没有 发 出 之 前 ,公共 牌 中 至 少 出 现 一 个 8 的 概率 有 
19% ,这 个 概率 并 不 算 低 。 

又 如 ,玩家 的 底牌 是 “ 黑 桃 8, 红 桃 7”, 已 经 发 出 的 四 张 公共 牌 是 “ 红 桃 K， 
黑 桃 5 ,方块 9, 梅花 Q”, 玩 家 唯一 的 希望 就 是 最 后 一 张 公共 牌 是 6, 这 样 就 会 
形成 顺 子 。 我 们 估算 一 下 最 后 一 张 牌 出 现 6 的 概率 : 

P( 最 后 一 张 公共 有 牌 出 现 6) = 47 46 = 8.70% 

多 么 让 人 肖 丧 的 结果 ,但 这 就 是 现实 一 一 不 要 对 某 一 张 牌 抱 太 大 的 希望 。 

上 面 的 计算 还 有 一 种 简便 方法 : 牌 堆 中 还 有 4 张 6, 我 们 把 4 乘 以 2, 再 加 
1, 得 到 9, 因此 ,6 出 现 的 概率 大 约 是 9% ,与 8.70% 的 计算 结果 很 接近 。 这 个 
简便 算法 的 原理 很 简单 ,由 于 扑克 牌 的 数量 大 约 为 50 张 ,因此 ,你 想 要 的 那 张 
牌 在 牌 堆 中 的 数量 乘 以 2, 便 得 到 了 那 张 牌 出 现 的 概率 ,再 加 1 是 对 这 一 概率 
进行 的 修正 ,因为 牌 堆 大 多 数 时 候 都 不 足 50 张 。 这 个 简便 算法 可 以 帮助 我 们 
快速 估算 我 们 期 待 的 牌 在 下 一 张 出 现 的 概率 。 


摊牌 


当 五 张 公共 有 牌 都 发 出 后 , 牌 局 就 进入 了 最 刺激 的 末 轮 下 注 。 此 时 ,玩家 需 
要 估算 自己 取胜 的 概率 ,以 决定 如 何 下 注 。 既 然 公共 有 牌 最 可 能 出 现 的 牌 型 是 
散 牌 ,我 们 就 以 散 牌 为 例 , 来 计算 玩家 取胜 的 概率 。 
如 图 5-6 所 示 , 五 张 公 共有 牌 是 “各 KK. 售 J], 售 8. 售 7, 合 3”. 玩 家 的 底牌 是 “ 草 
8, 唱 A”, 这 时 ,玩家 首先 要 想到 ,其 他 玩家 可 能 的 牌 型 有 黑 桃 同花顺 、 黑 桃 同 
花 \ 顺 子 \ 三 条 、 两 对 ,一 对 和 散 牌 ,然后 玩家 需要 一 一 估算 出 这 些 牌 型 出 现 的 
要 出 现 黑 桃 同 花 顺 .需要 底牌 是 仿 9 FM 10. Ale: 
P( 黑 桃 同花顺 ) = V Ci, = 0.10% 
要 出 现 黑 桃 同 花 , 需 要 底牌 是 两 张 黑 桃 牌 , 因 此 : 
P( 黑 桃 同 花 ) = (Ch 一 1X Cis = 4.44% 
要 出 现 顺 子 ,需要 底牌 是 9 和 10, 因 此 : 
P( 顺 子 ) = (CL X C — 1Y Ch = 1.52% 
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eo 
+++ 


me 


玩家 底牌 vr $ 


> 
> 
or 
=e 


图 5-6 牌 局 示例 


要 出 现 三 条 ,需要 底牌 是 K、J.、8、7 或 3 的 对 子 ,因此 : 
P( 三 条 ) = (G +G +G +G +Y CS = 1.31% 
要 出 现 两 对 ,需要 底牌 是 KJ、8、7、3 中 的 任意 两 个 ,因此 : 
P( 两 对 ) = (CE CC 一 CI CRY Cis = 7.88% 
要 出 现 一 对 ,需要 底牌 中 的 一 张 是 K、J、8、7、3 中 的 一 个 , 另 一 个 不 是 ， 
因此 : 


P( 一 对 ) = Cu + Ciy Cis = 43.8% 
出 现 散 牌 的 概率 是 : 
P( 散 牌 ) =1 一 P( 黑 桃 同花顺 ) 一 P( 黑 桃 同 花 ) 一 P( 顺 子 ) 一 
P( 三 条 ) — P( 两 对 ) 一 P( 一 对 ) 
=40.9% 
上 面 的 估算 结果 说 明 , 其 他 玩家 最 可 能 的 牌 型 是 一 对 和 散 牌 ,其 次 可 能 的 
牌 型 是 两 对 和 黑 桃 同 花 ,其 他 有 牌 型 出 现 的 概率 非常 低 。 本 例 与 表 5-5 不 同 之 
处 是 , 黑 桃 同 花 出 现 的 概率 高 于 顺 子 和 三 条 ,这 说 明 , 玩 家 要 根据 公共 上牌 的 情 
况 重新 估算 各 种 牌 型 出 现 的 概率 ,不 能 生 搬 硬 套 表 5-5 中 的 概率 分 布 。 
最 后 ,玩家 还 需要 知道 最 重要 的 一 件 事 是 ,他 赢得 牌 局 的 概率 有 多 大 ? 
玩家 有 一 对 8, 很 明显 , 黑 桃 同花顺 、 黑 桃 同 花 、 顺 子 、 三 条 和 两 对 都 比 玩家 
的 牌 型 大 , 散 牌 则 比 玩家 的 牌 型 小 ,玩家 需要 更 详细 的 估算 一 对 出 现 的 概率 : 
P( 一 对 K) = C} - Ciy Cis = 9.40% 
P( 一 对 了 = Ch + CY Cis = 9.40% 
P( 一 对 8) = C + Ciy Cis = 6. 26% 
P( 一 对 7) = CO - Cly Ci, = 9.40% 
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P( 一 对 3) = C3 .CiV Cis = 9. 40% 
当 其 他 玩家 也 有 一 对 8 的 牌 型 时 ,由 于 玩家 的 另 一 张 底牌 是 A, 所 以 玩家 
一 定 不 会 输 ,我 们 把 这 种 情况 也 视 为 玩家 赢 , 由 此 可 以 估算 出 玩家 赢 的 概率 : 
P( 玩 家 赢 ) = P( 一 对 8) 十 P( 一 对 7) 十 P( 一 对 3) + P( 散 牌 ) = 65.96% 
可 见 ,虽然 一 对 8 并 不 算是 大 牌 ,但 足以 让 玩家 赢 的 概率 达到 65. 96%, 这 
真是 一 个 赢 的 好 机 会 ! 
得 州 扑克 总 结 : 
(1) 皇家 同花顺 、 同 花 顺和 四 条 很 难 出 现 ; 
(2) 公共 有 牌 很 可 能 会 出 现 散 牌 或 一 对 ; 
(3) 每 个 玩家 最 后 的 牌 型 很 可 能 是 一 对 、 两 对 或 散 牌 ; 
(4) 散 牌 赢 的 概率 一 般 低 于 50%; 
O 不 同 的 公共 牌 会 有 不 同 的 概率 分 布 ,要 具体 问题 具体 分 析 。 
提醒 读者 : 上 面 的 所 有 概率 计算 都 是 玩家 的 估算 ,只 能 作为 下 注 的 参考 ， 
要 成 为 真正 的 得 州 高 手 , 只 有 一 个 办 法 一 一 现在 就 玩 一 局 吧 ! 


55 21 点 : 保守 未 必 是 坏事 


“21 点 ”也 是 赌场 里 十 分 流行 的 扑克 游戏 ,虽然 与 大 转盘 、 老 虎 机 一 样 是 与 
庄家 对 决 ,但 是 21 点 和 那些 注定 输 钱 的 游戏 有 本 质 的 不 同一 一 玩家 可 以 自由 
选择 策略 ,但 庄家 不 能 。 在 这 个 看 似 有 利 的 规则 下 ,玩家 有 可 能 从 庄家 手中 赢 
到 钱 吗 ? 这 一 节 , 我 们 就 从 概率 统计 的 角度 算 一 算 21 点 玩家 赢 钱 的 概率 。 


游戏 规则 


21 点 的 游戏 规则 如 下 所 述 。 

发 牌 者 一 张 接 一 张 的 给 玩家 发 牌 , 玩 家 每 得 到 一 张 牌 ,就 要 计算 一 下 手 上 
所 有 有 牌 的 点 数 之 和 ,然后 选择 继续 发 牌 或 者 停止 发 牌 。 在 玩家 选择 停止 发 牌 
后 ,发 牌 者 给 庄家 发 牌 ,直到 庄家 喊 停 为 止 。 最 后 ,双方 摊牌 比较 大 小 。 如 果 
双方 的 总 点 数 都 不 大 于 21 点 , 则 点 数 大 的 一 方 获胜 ,点 数 相 同 算 打 平 ; 手 牌 的 
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总 点 数 超过 21 点 , 称 为 " 爆 点 ”, 如 果 玩 家 爆 点 , 则 直接 输 掉 赌局 ,无须 给 庄家 
发 牌 ,如 果 玩 家 没 爆 点 ,庄家 爆 点 ， oe 此 外 ， 


赢得 1.5 倍 赌 金 ; 反 之 ,庄家 赢得 1. 5 倍 赌 金 ， 如 果 双 方 都 是 * 黑 杰克 ”, 算 
打 平 。 

21 点 最 重要 的 规则 是 停牌 规则 ,玩家 有 权 在 拿 到 任何 一 张 牌 后 停牌 ,但 是 
庄家 在 总 点 数 达到 17 点 或 17 点 以 上 时 ,必须 停牌 。 

点 数 大 小 的 计算 规则 是 ,A 是 1 点 或 11 点 ( 黑 杰 克 牌 型 ),K、Q、J、10 均 计 
10 点 ,其 余 的 牌 按照 牌 面 数字 计 点 数 。 这 里 需要 说 明 的 是 ,为 了 保证 公平 ,21 
点 游戏 一 般 会 使 用 6 副 甚 至 更 多 副 牌 ,这 样 可 以 保证 双方 每 一 轮 得 到 不 同 点 
数 牌 的 概率 几乎 相同 。 根 据点 数 计算 规则 ,在 不 考虑 黑 杰 克 牌 型 的 前 提 下 , 双 
方 每 一 轮 拿 到 1 一 9 点 中 某 一 个 点 数 的 概率 是 V13, 拿 到 10 点 的 概率 是 
y 13, 

规则 告诉 我 们 ,玩家 如 果 爆 点 会 直接 输 掉 赌 局 ,因此 玩家 需要 理性 看 待 爆 
点 。 根 据 各 点 数 出 现 的 概率 ,可 以 计算 出 下 一 张 牌 爆 点 的 概率 ,如 表 5-7 所 
示 。 从 手 牌 总 点 数 12 点 开始 , 爆 点 的 概率 逐渐 上 升 ,点 数 为 12 时 , 爆 点 概率 
为 30.8%; pee 15 ine 爆 点 概率 超过 50% ;点数 达 到 17 时 , 爆 点 概率 达 


到 约 70% 。17 点 是 给 自己 设置 的 强制 停牌 点 数 , 从 表 5-7 可 以 看 出 ,庄家 
给 自己 留 出 了 约 a 间 。 那 么 ,玩家 应 该 选择 怎样 的 策略 呢 ? 
表 5-7 爆 点 概率 
手 牌 总 点 数 下 一 轮 可 能 导致 爆 点 的 牌 下 一 轮 爆 点 的 概率 (%) 

1~11 无 0 

12 10,J.Q,.K 30.8 

13 9.10.J.Q.K 38.5 

14 8.9,10,J,.Q.K 46.2 

15 7.8.9,10.J,Q.K 53.9 

16 6.7.8.9,10.J,Q.K 61.6 

17 5,6,7,8,9,10,J,Q,K 69.3 

18 4,5,6,7,8,9,10,J,Q,K 77.0 

19 3+4.5,6+7+8.9,10.J.Q.K 84.7 

20 2,3.4,5,6,7,8,9,10,J,Q,K 92.4 

21 所 有 牌 100 
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三 种 策略 


21 点 的 停牌 规则 给 了 玩家 很 大 的 自由 度 , 玩 家 可 以 自由 安排 策略 ,这 便 是 
21 点 考验 玩家 智慧 的 地 方 。 玩 家 既 可 以 比 庄家 更 保守 ,也 可 以 比 庄家 更 激进 ， 
还 可 以 “以 牙 还 牙 ”, 采 用 和 庄家 相同 的 策略 。 三 种 具有 代表 性 的 策略 如 下 
所 述 。 

(1) 保守 策略 。 玩 家 在 手 牌 点 数 大 于 11 点 时 选择 停止 发 牌 , 保 证 绝 不 会 
爆 点 。 

(2) 对 等 策略 。 玩 家 在 手 牌 点 数 大 于 或 等 于 17 点 时 选择 停止 发 牌 ,与 庄 
家 采用 同样 的 策略 。 

G) 激进 策略 。 玩 家 在 手 牌 点 数 大 于 20 点 时 选择 停止 发 牌 ,不 得 到 21 点 
ERE. 

我 借助 一 点 编程 技巧 完成 了 三 种 策略 的 概率 计算 ,得 到 表 5-8。 

表 5-8 三 种 策略 的 点 数 概率 分 布 


点 数 = 
保守 策略 (%) 对 等 策略 (%) 激进 策略 (%) 
12 12.10 一 一 
13 11.61 一 一 
14 11.08 = 
15 10. 52 a 一 
16 9.90 = — 
17 9.24 14. 23 — 
18 8:53 13.52 — 
19 7:77 12.76 一 
20 2 17. 26 a 
21 2.24 7. 22 12.18 
黑 杰克 4.73 4.73 4.73 
爆 点 0.00 30. 28 83.09 
利用 表 中 的 概率 分 布 可 以 进一步 计算 出 三 种 策略 不 同 点 数 的 赢 、 平 、 输 条 


件 概率 ,如 表 5-9 ~ K 5-11 所 示 。 
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表 5-9 保守 策略 的 赢 平 输 概 率 分 布 


点 数 赢 的 概率 (%%) 平 的 概率 (%) 输 的 概率 (%) 
12 30. 28 0. 00 69.72 
13 30. 28 0. 00 69.72 
14 30. 28 0. 00 69.72 
15 30. 28 0. 00 69.72 
16 30. 28 0. 00 69.72 
17 30. 28 14. 23 55.49 
18 44,51 13, 52 41.97 
19 58. 03 12.76 29. 21 
20 70.79 17, 26 11,95 
21 88.05 722 4,73 
黑 杰克 95. 27 4.73 0.00 
爆 点 0.00 0.00 100. 00 
表 5-10 ”对 等 策略 的 赢 平 输 概率 分 布 
点 数 启 的 概率 (%) 平 的 概率 (%) 输 的 概率 (%) 
17 30. 28 14, 23 55.49 
18 44.51 13.52 41.97 
19 58. 03 12.76 29,21 
20 70.79 17. 26 11,95 
21 88. 05 7.22 4.73 
黑 杰 克 95. 27 4.73 0. 00 
爆 点 0.00 0.00 100 
表 5-11 激进 策略 的 赢 平 输 概率 分 布 
点 数 赢 的 概率 (%%) 平 的 概率 (%) 输 的 概率 (%) 
21 88.05 7.22 4.73 
黑 杰 克 95.27 4.73 0. 00 
爆 点 0.00 0.00 100. 00 


借助 表 5-9 ~ ZS 5-11 的 概率 分 布 .可 以 计算 出 三 种 策略 的 赢 平 输 概 率 , 如 
K 5-12 所 示 。 表 5-12 中 数据 显示 ,保守 策略 和 对 等 策略 都 有 较 高 的 胜率 , 输 
的 概率 都 接近 50% ,但 激进 策略 的 表现 则 很 糟糕 , 输 的 概率 高 达 83% 。 因 此 ， 


要 想 在 21 点 游戏 中 争取 更 多 胜利 ,宁可 保守 也 不 可 冒进 。 
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表 5-12 三 种 策略 的 赢 平 输 概率 


赢 的 概率 (%%) 平 的 概率 (%) 输 的 概率 ( %) 
保守 策略 42. 99 5.96 51.05 
对 等 策略 40.81 9,21 49, 98 
激进 策略 15, 23 1.10 83. 67 


FATE Ba Do HI EE UAB OS «a FS A A TE BR SH AB 
设 玩家 和 庄家 的 赌 金 都 是 100 元 , 黑 杰 克 出 现时 会 赢得 150 元 的 赌 金 ,由 此 得 
到 三 种 策略 的 收益 期 望 分 别 是 : 
E( 保 守 策略 的 收益 ) =— 8. 06( 元 ) 
E( 对 等 策略 的 收益 ) =— 8. 45( 元 ) 
E( 激 进 策略 的 收益 ) =— 66. 4700) 
保守 策略 的 收益 期 望 值 依然 是 最 高 的 ,其 次 是 对 等 策略 ,激进 策略 依然 是 
最 粳 糕 的 选择 ,无 论 三 者 熟 高 熟 低 ,三 种 策略 的 收益 期 望都 是 负数 ,根据 大 数 
定理 ,连续 不 断 地 玩 下 去 ,玩家 一 定 会 输 钱 ,不 同 的 策略 只 是 影响 输 钱 的 快慢 
MEDET. 
此 外 ,有 一 个 问题 不 知 读者 有 没有 想 过 : 既然 玩家 采取 了 和 庄家 一 样 的 
对 等 策略 ,为 什么 收益 期 望 值 还 是 负数 呢 ? 难道 双方 不 应 该 打 平 吗 ? 答案 是 
“ 爆 点 ”的 规则 打破 了 玩家 和 庄家 的 平衡 , 当 玩 家 爆 点 时 ,会 直接 输 掉 赌 金 , 如 
此 一 来 ,庄家 就 没有 机 会 “ 爆 点 ”了 ,收益 的 天 平 就 向 庄家 倾斜 了 。 
最 后 ,我 们 可 以 用 一 句 话 总 结 21 点 游戏 : 保守 一 些 总 不 会 错 ! 
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导语 : EHERERHREMLRE REHM RSE 
和 球迷 们 山 呼 海啸 的 助威 ,所 以 主场 作战 的 球 队 总 是 会 获胜 。 体 育 
世界 中 所 谓 的 “主场 优势 ", 是 媒体 的 造势 还 是 确 有 其 事 ? 假设 检验 
为 你 揭 开 谜底 。 


61 主场 优势 : 规律 还 是 假象 ? 


“中 国 奥运 代表 团 在 2008 年 北京 奥运 会 上 实现 了 突破 ,首次 获得 金牌 榜 


第 一 名 !” 


连 


“利物浦 队 坐 镇 安 菲 尔 德 球场 三 球 大 胜 来 访 的 曼联 队 !” 
“比赛 结束 了 ! 勇士 队 在 自己 的 主场 输 给 了 凯 尔 特 人 队 , 终 结 了 主场 54 


胜 的 纪录 !” 


主场 是 体育 迷 最 熟悉 的 一 个 词 ,主场 作战 意味 着 熟悉 的 更 衣 室 、 熟 悉 的 地 


板 、. 熟 悉 的 篮 乱 , 进 球 时 可 以 接受 全 场 球迷 的 喝彩 ,落后 时 会 听 到 山 呼 海啸 的 


加 


由 ! 每 场 比 赛 前 ,主场 作战 的 球 队 都 会 受到 媒体 和 球迷 的 偏爱 ,只 因为 每 个 
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人 都 知道 ,主场 作战 的 球 队 握 有 独一无二 的 武器 一 一 主场 优势 。 

主场 优势 是 体育 世界 里 的 一 个 自然 形成 的 "规律 ”虽然 主场 球 队 和 客场 
球 队 在 同样 的 天 气 下 .同样 的 场地 上 比赛 ,但 是 主场 球 队 似乎 总 是 表现 得 更 
好 。 主 场 优势 到 底 是 媒体 的 造势 还 是 确 有 其 事 ? 我 们 从 球迷 们 最 熟悉 的 两 项 
赛事 说 起 。 


NBA 的 主场 优势 


北美 职业 篮球 联盟 (CNational Basketball Association ,NBA) 代 表 了 篮球 运 
动 的 最 高 水 平 , 新 赛季 从 每 年 的 10 月 持续 至 次 年 6 月 ,联盟 的 30 支 球 队 分 东 
西 两 个 半 区 进行 比赛 。 比 赛 分 为 循环 赛 和 淘汰 赛 两 个 阶段 ,循环 赛 称 为 常规 
赛 ,每 支 球 队 都 要 打 满 82 场 常规 赛 。 接 下 来 ,东西 半 区 排名 前 八 名 的 球 队 进 
入 7 场 4 胜 的 淘汰 赛 一 一 季 后 赛 。 季 后 赛 的 竞争 总 是 异常 激烈 ,充斥 着 强悍 
的 身体 对 抗 . 地 板 球 争 抢 甚至 粗暴 的 犯规 ,火药 味 儿 十 足 。 主 场 优势 在 季 后 赛 
中 也 得 以 彰显 ,主队 的 每 一 个 进 球 、 每 一 次 成 功 防守 都 会 引发 全 场 球迷 的 喝 
彩 ,客队 球员 每 一 次 罚球 都 会 遭 到 球迷 们 肆 无 忌 翌 的 干扰 。 在 这 样 的 氛围 下 ， 
客队 很 难 带 走 一 场 胜利 。 

我 们 用 数据 说 话 。2014 一 2015 赛季 的 NBA 常规 赛 一 共 进 行 了 1 230 场 
比赛 ,主队 取胜 707 场 ,胜率 57.5%;2014 一 2015 赛季 的 季 后 赛 一 共 进 行 了 81 
场 比赛 ,主队 取胜 48 场 ,胜率 达到 59. 3%。 表 6-1 是 2014 一 2015 赛季 NBA 
常规 赛 部 分 赛 果 , 表 6-2 是 2014 一 2015 赛季 NBA 季 后 赛 部 分 赛 果 , 数 据 来 
美国 体育 数据 网 站 Sports Reference (网 站 地 址 : http.// www. basketball- 


reference. com), 


X 6-1 2014—2015 赛季 NBA 常规 赛 部 分 赛 果 


客队 得 分 主队 得 分 | EDGE 
场次 Z A Gy) 主 M (分 ) 结果 
1 休斯敦 火箭 108 洛杉矶 湖人 90 负 
2 奥兰多 魔术 84 PRR 101 胜 
3 达拉斯 小 牛 100 圣安东尼奥 马刺 101 胜 
4 布鲁克 林 篮 网 105 波士顿 凯 尔 特 人 121 胜 
5 密尔沃基 雄 鹿 106 夏 洛 特 黄蜂 108 胜 


第 6 章 假设 检验 


得 分 主队 得 分 EY 
i 2 on | 的 | = & | c | ae 
6 底特律 活塞 79 丹佛 掘 金 89 胜 
7 费城 76 人 91 印第安 纳 步行 者 103 胜 
8 明尼苏达 森林 狼 101 孟菲斯 灰 能 105 胜 
9 华盛顿 奇才 95 迈阿密 热火 107 胜 
10 芝加哥 公牛 104 纽约 尼克 斯 80 负 
表 6-2 2014 一 2015 赛季 NBA 季 后 赛 部 分 赛 果 
客队 得 分 re 主队 得 分 | 主队 赛 
场次 Z BR (分 ) 主 队 (分 ) 结果 
1 密尔沃基 雄 鹿 91 芝加哥 公牛 103 胜 
2 PRA RISB 99 金 州 勇士 106 胜 
3 达拉斯 小 牛 108 休斯敦 火箭 118 胜 
4 华盛顿 奇才 93 多 伦 多 猛 龙 86 负 
5 布鲁克 林 篮 网 92 亚特兰大 老 应 99 胜 
6 波士顿 凯 尔 特 人 100 克 里 夫 兰 骑士 113 胜 
圣安东尼奥 马刺 92 洛杉矶 快 船 107 胜 
8 波 特 兰 开拓 者 86 孟菲斯 灰 熊 100 胜 
9 密尔沃基 雄 鹿 82 芝加哥 公牛 91 胜 
10 RRA RISB 87 金 州 勇士 97 胜 


这 些 数据 似乎 从 统计 意义 上 说 明了 ,主队 的 确 更 容易 获胜 。 可 是 ,我 们 依 
然 可 以 找到 反例 ,比如 ,2014 一 2015 赛季 的 总 决赛 ,勇士 队 和 骑士 队 一 共 进 行 
T 6 场 比赛 ,主队 和 客队 各 取胜 3 场 。 又 如 ,2013 一 2014 赛季 的 总 决赛 ,马刺 
队 和 热火 队 一 共 进 行 了 5 场 比赛 ,主队 只 取胜 2 场 ,客队 却 取胜 了 3 场 。 这 些 
反例 在 提醒 我 们 ,主场 优势 并 非 时 刻 都 会 显现 ,经 验 老 到 的 马刺 队 和 三 分 无 解 
的 勇士 队 都 曾 反 客 为 主 , 逆 势 取胜 。 


世界 杯 的 主场 优势 


2014 年 6 月 12 日 ,第 20 届 世界 杯 在 热 辣 的 桑 巴 舞曲 中 拉 开 大 幕 。“ 桑 巴 
军团 ”巴西 队 坐 镇 主场 ,气势 如 虹 ， 潘 帕 斯 雄 鹰 " 阿 根 廷 队 同 为 南美 老乡 ,也 算 
拥有 半 个 主场 ,再 加 上 队 中 有 梅 西 , 阿 硅 罗 等 一 流 攻 击 手 ,也 志 在 夺冠 。 两 支 
主场 作战 的 球 队 不 负 众望 ,一 起 杀 进 了 半 决 赛 。 
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半 决 赛 第 一 场 ,巴西 队 遭 遇 德国 队 。 比 赛 进行 了 不 到 30 分 钟 , 场 边 的 数 
万 巴西 球迷 便 已 心 碎 , 比 赛 伍 然 成 为 德国 队 的 进攻 表演 ,90 分 钟 过 后 ,比分 牌 
上 赫然 显示 着 7 : 1, 巴 西 队 在 家 乡 父老 面前 刷新 了 一 个 耻辱 的 记录 一 一 世界 
杯 半 决 赛 的 最 大 分 差 。 半 决赛 第 二 场 ,阿根廷 队 迎 战 老 对 手 荷 兰 队 ,双方 麻 战 
到 加 时 赛 时 依然 难 分 高 下 ,点 球 大 战 中 ,阿根廷 门将 罗 梅 罗 扑 出 了 荷兰 队 的 两 
粒 点 球 , 力 助 阿根廷 队 挺 进 决赛 。 

决赛 前 ,全 球 媒体 对 比赛 结果 做 出 了 很 多 预测 , 论 实 力 ,德国 队 略 胜 一 筹 ， 
但 在 一 场 定 胜 负 的 决赛 中 ,以 弱 胜 强 的 案例 数不胜数 ,而 且 有 一 项 统计 数据 给 


德国 队 夺冠 蒙 上 了 阴影 
翻 开 世 界 杯 的 史册 ,在 2014 年 


美洲 举办 的 世界 杯 上 夺冠 的 都 是 美洲 球 队 。 
巴西 世界 杯 之 前 ,共有 7 届 世 界 杯赛 在 美 


洲 国家 举办 ,最 终 捧 杯 的 都 是 美洲 球 队 ,而 且 其 中 有 5 次 是 美洲 球 队 战 胜 欧洲 
球 队 夺 冠 。 更 不 利于 德国 队 的 是 , 半 决 赛 上 对 
至 全 南美 洲 的 球迷 ,他 们 纷纷 穿 上 阿根廷 的 球衣 ,把 决赛 场地 彻底 变 成 了 阿 根 
廷 队 的 主场 。 决 赛 的 过 程 也 正如 媒体 所 料 ,阿根廷 队 并 未 落 入 下 风 , 梅 西 甚至 
获得 过 终结 比赛 的 机 会 。 然 而 ,阿根廷 队 在 加 时 赛 中 的 一 次 防守 松懈 彻底 大 
送 了 比赛 ,他 们 以 一 球 惜败 , 饮 恨 决 赛 。 也 许 , 只 有 高 傲 顽 强 的 日 耳 曼 战 车 才 
能 碾 碎 "美洲 无 冠 "的 魔 咒 ! 


巴西 队 的 羞辱 “激怒 "了 巴西 甚 


表 6-3 ”历届 世界 杯 冠军 


ma | AEP | 举办 国 | 冠 军 决赛 比分 

第 一 届 1930 乌拉 圭 乌拉 圭 队 乌拉 圭 4 : 2 阿根廷 

第 二 届 1934 意大利 意大利 队 意大利 2 : 1 捷克 斯 洛 伐 克 
三 届 1938 法 国 意大利 队 意大利 4: 2 匈牙利 

第 四 届 1950 巴西 乌拉 圭 队 乌拉 圭 2 : 1 巴西 

第 五 届 1954 瑞士 西 德 队 西 德 3 : 2 匈牙利 

第 六 届 1958 瑞典 巴西 队 巴西 5 : 2 瑞典 

第 七 届 1962 智利 巴西 队 巴西 3 : 1 捷克 斯 洛 伐 克 

第 八 届 1966 英格兰 英格兰 队 英格兰 4: 2 西 德 

第 九 届 1970 墨西哥 巴西 队 巴西 4: 1 意大利 

第 十 届 1974 西 德 西 德 队 西 德 2 : 1 荷兰 

第 十 一 届 1978 阿根廷 阿根廷 队 阿根廷 3 : 1 荷兰 

第 十 二 届 1982 西班牙 意大利 队 意大利 3 : 1 西 德 
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续 表 
moa | PEO | 举办 国 | 冠军 决赛 比分 
第 十 三 1986 墨西哥 阿根廷 队 阿根廷 3 : 2 西 德 
第 十 四 届 1990 意大利 西 德 队 西 德 1: 0 阿根廷 
第 十 五 届 1994 美国 巴西 队 巴西 4: 3 意大利 (点 球 ) 
第 十 六 届 1998 法 国 法 国 队 法 国 3: 0 巴西 
第 十 七 届 2002 韩国 .日 本 | 巴西 队 巴西 2 : 0 德国 
第 十 八 届 2006 德国 意大利 队 意大利 5 : 3 法 国 (点 球 ) 
第 十 九 届 2010 南非 西班牙 队 西班牙 1 : 0 荷兰 
第 二 十 届 2014 巴西 德国 队 德国 1: 0 阿根廷 


不 论 是 NBA 还 是 世界 杯 ,不 论 是 篮球 还 是 足球 ,3 


E 场 优势 总 会 成 为 大 家 


热 议 的 话题 ,很 多 统计 数据 都 可 以 说 明 主 场 优势 的 存在 ,也 有 很 多 球 队 能 够 北 
势 取胜 ,我 们 到 底 应 该 怎样 看 待 主场 优势 呢 ? 接 下 来 ,我 们 就 用 “假设 检验 ”来 


回答 这 个 问题 。 


62 假设 检验 : 主场 真 的 有 优势 吗 ? 


假设 检验 是 统计 推断 的 一 种 常用 方法 , 简 言 之 就 是 “ 先 假设 .再 检验 ”。 例 
如 ,在 庞 加 莱 与 面包 的 故事 中 (参见 “ 正 态 分布 ” 一 节 ), 庞 加 莱 知 道 面包 的 重量 
服从 正 态 分 布 ,但 是 不 知道 正 态 分 布 的 参数 ,这 时 , 庞 加 莱 假 设 面包 重量 的 均 


值 为 某 个 常数 ,利用 记录 的 称 重 数据 验证 假设 是 否 成 立 。 
下 面 ,我 们 就 用 假设 检验 的 方法 来 验证 主场 优势 是 否 真 的 存在 。 


定义 主场 优势 


要 验证 主场 是 否 有 优势 ,首先 要 从 概率 统计 的 角度 来 定义 了 
客场 各 41 场 ,在 常规 赛 结 


一 个 NBA 赛季 中 ,每 支 球 队 会 进行 82 场 常规 赛 ,3 


E 场 优势 。 在 


束 时 会 得 到 一 张 战绩 表 , 表 6-4 是 2014 一 2015 赛季 NBA 常规 赛 战 绩 表 , 表 中 
列 出 了 30 支 球 队 的 总 战绩 和 主客 场 战绩 。 为 了 用 一 个 数字 表现 出 各 支 球 队 


生 界 是 随机 的 一 大 数据 时 代 的 概率 统计 学 


的 战绩 优 劣 ,NBA 联盟 会 计算 出 各 支 球 队 的 胜率 一 一 胜 场 数 / 总 场次 。 表 6-4 
中 列 出 了 30 支 球 队 的 总 胜率 和 主客 场 胜 率 。 所 谓 主 场 优势 ,是 指 一 支 球 队 的 
主场 表现 优 于 客场 表现 ,因此 ,我 们 用 胜率 差 一 一 主场 胜率 和 客场 胜率 的 差 
值 一 一 来 度量 一 支 球 队 主客 场 表现 的 差距 。 

K 6-4 列 出 了 30 支 球 队 的 胜率 差 。 我 们 观察 到 ,只 有 篮 网 队 的 胜率 差 是 
0, 其 余 球 队 的 胜率 差 都 大 于 0, 开 拓 者 队 的 胜率 差 更 是 超过 了 30%。 单 凭 观 


察 ,我 们 几乎 可 以 断定 主场 优势 是 普遍 存在 的 ,但 是 这 还 不 够 ,要 从 概率 统计 
的 角度 证 明 主 场 优势 存在 ,就 需要 使 用 假设 检验 o 
表 6-4 2014—2015 赛季 NBA 常规 赛 战绩 表 
Bl 球 队 | 总 战绩 | 主场 战绩 | ases | MEE | EO | eee | 水 
1 | 老 应 60 胜 22 负 |35 胜 6 负 |25 胜 16 负 | 73.20 | 85.37 | 60.98 |24.39 
2 | 骑士 53 JE 29 负 |31 胜 10 负 |22 胜 19 负 | 64.60 | 75.61 | 53.66 | 21.95 
3 | 公牛 50 胜 32 负 |27 胜 14 负 |23 胜 18 负 | 61.00 | 65.85 | 56.10 | 9,76 
4 | 猛 龙 49 JE 33 负 |27 胜 14 负 |22 WE 19 负 | 59.80 | 65.85 | 53.66 | 12.20 
5 | 奇才 46 胜 36 429 胜 12 负 |17 胜 24 负 | 56.10 | 70.73 | 41.46 |29.27 
a 6 | MERE 41 胜 41 负 |23 胜 18 负 |18 胜 23 负 | 50.00 | 56.10 | 43.90 |12.20 
赛 | 7 | 凯 尔 特 人 |40 WE 42 负 |21 胜 20 负 |19 胜 22 负 | 48.80 | 51.22 | 46.34 | 4.88 
i 8 | 篮 网 38 JHE 44 负 |19 胜 22 负 |19 胜 22 负 | 46.30 | 46.34 | 46.34 | 0.00 
名 | 9 | 步行 者 “|38 胜 44 负 |23 胜 18 负 |15 胜 26 负 | 46.30 | 56.10 | 36.59 |19.51 
10 | 热火 37 胜 45 负 |20 胜 21 负 |j17 胜 24 负 | 45.10 | 48.78 | 41.46 | 7.32 
11 | 黄蜂 33 JHE 49 负 |19 WE 22 负 |14 胜 27 负 | 40.20 | 46.34 | 34.15 | 12.20 
12 | 活塞 32 JHE 50 负 |18 WE 23 负 |14 胜 27 负 | 39.00 | 43.90 | 34.15 | 9.76 
13 | 魔术 25 JE 57 负 |13 胜 28 负 |12 胜 29 负 | 30.50 | 31.71 | 29.27 | 2.44 
14 | 76 人 18 胜 64 负 |12 胜 29 负 6 胜 35 负 | 22.00 | 29.27 | 14.63 |14.63 
15 | 尼克 斯 |17 胜 65 负 |10 胜 31 负 |7 胜 34 负 | 20.70 | 31.71 | 17.07 |14.63 
西 | 1 | 勇士 67 胜 15 负 |39 胜 2 负 |28 胜 13 负 | 81.70 | 95.12 | 68.29 | 26.83 
部 | 2 | 火箭 56 胜 26 负 |30 胜 11 负 |26 胜 15 负 | 68.30 | 73.17 | 63.41 | 9.76 
3 | AE 56 胜 26 负 |30 胜 11 负 |26 胜 15 负 | 68.30 | 73.17 | 63.41 | 9.76 
排 | 4 | 开拓 者 ”|51 胜 31 负 |32 胜 9 负 |19 胜 22 负 | 62.20 | 78.05 | 46.34 |31.71 
名 | 5 | 灰 能 55 胜 27 负 |31 胜 10 负 |24 胜 17 负 | 67.10 | 75.61 | 58.54 |17.07 
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续 表 

6 | 马刺 55 胜 27 负 |33 胜 8 负 |22 胜 19 负 | 67.10 | 80.49 | 53.66 | 26.83 

7 | 小 牛 50 胜 32 负 |27 胜 14 负 |23 胜 18 负 | 61.00 | 65.85 | 56.10 | 9.76 
西 | 8 | #948 45 WE 37 负 |28 胜 13 负 |17 胜 24 负 | 54.90 | 68.29 | 41.46 | 26.83 
f 9 | EZ 45 胜 37 负 |29 胜 12 负 |16 胜 25 负 | 54.90 | 70.73 | 39.02 |31.71 
区 | 10 | 太阳 39 WE 43 负 |22 WE 19 负 |17 胜 24 负 | 47.60 | 53.66 | 41.46 |12.20 
1 11 | Ñ 38 胜 44 负 |21 胜 20 负 |17 胜 24 负 | 46.30 | 51.22 | 41.46 | 9.76 

12 | 掘 金 30 JE 52 负 |19 WE 22 负 |11 胜 30 负 | 36.60 | 46.34 | 26.83 |19.51 

13 | AE 29 WE 53 负 |18 WE 23 负 |11 胜 30 负 | 35.40 | 43.90 | 26.83 | 17,07 

14 | 湖人 21 胜 61 负 |12 胜 29 负 |9 胜 32 负 | 25.60 | 29.27 | 21.95 | 7.32 

15 | 森林 狼 |16 胜 66 负 |9 胜 32 负 |7 胜 34 负 | 19.50 | 21.95 | 17.07 | 4.88 
双边 Z 检 验 


双边 Z 检验 是 假设 检验 中 的 一 种 检验 方法 ,我 们 首先 学 习 双 边 Z 检验 的 
原理 ,再 利用 双边 Z 检验 来 验证 主场 优势 。 

假定 主客 场 胜率 差 X 服从 正 态 分 布 N (Cuoi) ,oo 是 已 知 的 常数 ,w 是 未 知 
参数 。 构 造 如 下 的 两 个 对 立 的 假设 : 

原 假设 Ho: p=po 

备 择 假设 A: upo 

原 假设 H。 表 示 胜 率 差 的 均值 是 ywo, 备 择 假设 及! 表示 胜率 差 的 均值 不 是 
4o。 假 设 检验 的 思路 是 ,假设 Ho 成 立 ,并 由 理 , 得 到 的 若干 推论 ,如 果 这 些 推 
论 与 已 知 条 件 予 盾 , 说 明 Ho, 不成立, 反之 Ho 成 立 。 

在 Ho 成 立 的 前 提 下 ,胜率 差 X 服从 均值 为 uo ,标准 差 为 oo 的 正 态 分 布 , 即 
X~ Na)。 我 们 知道 ,在 采样 数量 足够 (一 般 不 少 于 30 个 ) 的 前 提 下 ,采样 
数据 的 均值 X 应 该 是 随机 变量 X 的 均值 jy 的 无 偏 估计 , 即 ,X 应 该 能 够 反映 jy 
的 大 小 。 因 此 ,与 的 偏差 |X 一 y| 应 该 不 会 太 大 。 在 概率 统计 中 ,“ 应 该 不 
会 "意味 着 发 生 的 概率 很 小 .这 个 “小 概率 ”在 假设 检验 中 称 为 显著 性 水 平 , 记 
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为 ,一 般 取 值 为 0.05 或 0.01, 即 , 当 Ho BEI |X pel 非常 大 的 概率 不 超 


过 a。 


HH X~N(pe0?) AYR Z=(X — po )/ Co Vn) 服 从 N(0,1) 标 准 正 态 分 布 ， 
此 “| 一 yl 非常 大 的 概率 不 超过 a” 等 价 于 “Z 非常 大 的 概率 不 超过 a”。 根 据 
正 态 分 布 的 定义 可 以 找到 Z 的 取 值 区 间 , 图 6-1 中 的 阴影 部 分 是 使 得 “2 非常 
大 的 概率 超过 a” 的 取 值 区 间 , 称 为 拒绝 域 , 当 的 值 落 在 拒绝 域 中 时 ,说 明 XX 与 
上 的 偏差 过 大 ,我 们 不 接受 Ho 的 假设 , 当 Z 的 值 落 在 拒绝 域 之 外 时 ,说 明 X 与 
上 的 偏差 不 大 ,我 们 接受 有 H, 的 假设 。 

要 确定 拒绝 域 的 位 置 ,只 需要 计算 出 两 个 临界 点 一 Zws 和 Zwz, 一 Zws 和 
Zv* 是 标准 正 态 分 布 的 一 % 2 分 位 点 和 of 2 分 位 点 。 标 准 正 态 分 布 的 w 2 分 
位 点 Zw :是 指 ,标准 正 态 分 布 概率 密度 曲线 上 满足 POX > 20) Sd 2 的 xo 值 ， 
一 般 记 为 2,: ,其 他 分 位 点 的 定理 与 此 类 似 。 标 准 正 态 分 布 的 分 位 点 不 需要 计 
算 , 查 “标准 正 态 分 布 表 ” 便 可 以 得 到 。 在 双边 Z 检验 中 之 所 以 将 X 变换 为 标 
准 正 态 分 布 ,就 是 为 了 便于 查找 分 位 点 ,这 样 的 “标准 化 变换 ”是 求解 数学 问题 
的 常用 方法 。 


拒绝 域 拒绝 域 
Zap Zan, 
(=-al2 分 位 点 ) (a/2 分 位 点 ) 


图 6-1 双边 Z 检验 的 临界 点 和 拒绝 域 


以 上 便 是 双边 Z 检验 的 原理 , 接 下 来 ,我 们 便利 用 双边 Z 检验 来 验证 主场 
优势 。 
主场 优势 可 以 用 主客 场 胜率 差 的 均值 来 度量 ,如 果 我 们 能 够 说 明 主客 场 
胜率 差 的 均值 为 某 个 正 数 ,就 可 以 说 明 主 场 优势 的 确 存在 。 观 察 表 6-4 中 的 


数据 可 以 发 现 ,有 10 支 球 队 的 胜率 差 十 分 接近 10% , Atk. BANA WS uo = 
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0. 1。 假 设 我 们 已 知 胜率 差 X 服从 正 态 分 布 N (y,o) ,标准 差 c 为 0.9( 由 30 
支 球 队 战 绩 估算 的 总 体 标 准 差 ), 即 X~N(y.0. 9?)。 

构造 如 下 两 个 假设 : 

Ho: p=0.1 

Hı: 0.1 

假设 Ho 成 立 , 则 X~N(0.1,0.9*)。 表 6-4 中 的 胜率 差 一 列 是 X 的 30 
个 采样 数据 ,Z=(X 一 0.1X (0. Y V30) 服 从 N(0,1) 标 准 正 态 分 布 ,采样 数据 
的 均值 为 0.15, 对 应 的 Z 值 为 (0.15 一 0.1)X (0.9 V30), 即 0. 30。 

取 显 著 性 水 平 a=0. 05, 对 应 的 临界 点 为 一 1. 96 和 1.96。 由 于 一 1. 96< 
0. 30<1. 96 ,因此 采样 数据 的 均值 没有 落 入 拒绝 域 , 因 此 我 们 接受 Ho 假设 , 即 
“主客 场 胜率 差 的 均值 为 10%” 是 正确 的 。 

如 果 我 们 把 jo 设 为 较 大 的 值 , 则 会 使 得 均值 落 入 拒绝 域 中 。 例 如 ,构造 如 
下 两 个 假设 : 

Ho: y=0.5 

Hı: yA0.5 

假设 Ho pe. Ml] X~ NCO. 5,0. 9°) .Z=(X—0.5Y (0.9 V30) 服 从 N(0,1) 
标准 正 态 分 布 ,采样 数据 的 均值 为 0.15, 对 应 的 Z 值 为 (0. 15 一 0. 5Y (0. Y 30), 
即 一 2. 13。 

取 显 著 性 水 平 a 二 0.05, 对 应 的 临界 点 为 一 1. 96 和 1. 96。 由 于 一 2. 13< 
一 1. 96 ,因此 采样 数据 的 均值 落 入 拒绝 域 ,因此 我 们 拒绝 Ato AP i. BI E A 
胜率 差 的 均值 为 50%” 是 不 正确 的 。 


单 边 Z 检 验 


要 验证 胜率 差 的 均值 大 于 某 个 常数 ,就 需要 使 用 单 边 Z 检验 。 同 样 假定 
我 们 已 知 主客 场 胜率 差 X 服从 正 态 分 布 N (was)。 构 造 如 下 的 两 个 对 立 的 
Bit: 

Ho: p>0.1 

Hı: p<0.1 
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为 Ho 中 的 jy BEE 瓦 ; 中 的 大 , 当 Hi 为 真 时 ,样本 均值 会 偏 小 ,因此 , 拒 
绝 域 的 形式 为 : 


X < kh 是 某 个 常数 ) 
我 们 只 能 取 小 于 这 一 侧 的 区 域 作为 拒绝 域 ,如 图 6-2 所 示 , 这 就 是 “ 单 


拒绝 域 


Za 
(-a 分 位 点 ) 


6-2 单 边民 检 验 的 临界 点 和 拒绝 域 


Z=(X—0. 1/ (0. Y V30) 服 从 N(0,1) 标 准 正 态 分布 , 采 样 数据 的 均值 
为 0.15, 对 应 的 Z 值 为 (0.15 一 0. 1y (0. Y V30), 即 0.30。 

取 显 著 性 水 平 a 二 0.05, 此 时 ,拒绝 域 是 单 边 的 , 查 表 可 得 临界 点 为 >-。 王 
一 1. 65, 即 拒绝 域 为 Z 二 一 1. 65。 由 于 0. 30 没有 落 入 拒绝 域 ,我 们 接受 Ho 
假设 。 

如 果 将 两 个 对 立 假 设 改 为 : 

Ho: pX0.1 

Hı: p>0.1 

其 余 条 件 不 变 , 则 拒绝 域 的 形式 为 

X > kth 为 某 个 常数 ) 

取 显 著 性 水 平 a 二 0.05, 此 时 ,拒绝 域 是 单 边 的 , 查 表 可 得 临界 点 为 1. 65， 
即 拒绝 域 为 21.65。 由 于 0. 30 没有 落 入 拒绝 域 ,我 们 接受 Ho 假设 。 

上 面 的 两 个 矿 , 假 设 包含 自 相 了 矛盾 的 含义 ,我 们 却 都 接受 了 ,看 似 存在 予 
盾 , 既 然 计算 过 程 没有 错误 ,那么 问题 一 定 出 在 前 提 条 件 上 。 每 一 次 检验 ,我 
们 都 假定 X 服从 N (y,0.9?) 的 正 态 分 布 ,这 个 假设 是 进行 Z 检验 的 前 提 条 
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件 ,可 是 ,0.9 只 是 我 们 从 样本 估计 出 的 总 体 标准 差 , 不 一 定 是 真正 的 总 体 标准 
差 , 如 果 我 们 事先 不 知道 总 体 标准 差 , 也 可 以 进行 假设 检验 一 一 : 检验 。 


t 检 验 


已 知 主客 场 胜 率 差 X 服从 正 态 分 布 N Geo?) ,py Mo 都 是 未 知 参数 ,此 
时 ,我们 要 验证 y= 二 yw 是 否 正确 ,就 需要 使 用 检验。 

构造 两 个 对 立 假设 : 

Ho: p=po 

Hi: pF po 

假设 有 H, 成 立 , 由 于 o 是 未 知 变量 ,不 能 构造 Z 值 进行 检验 ,此 时 ,我 们 利 
用 “ 正 态 分 布 ”一 节 中 介绍 过 的 1 分 布 来 构造 一 个 变量 1。 

已 知 XX~N(po ) Xis Xz，… o KÆ X 的 ?个 样本 ,因此 ,(z 一 1)S 一 
X*(n 一 1) ,其 中 S 是 a 的 无 偏 估 计 。 根 据 t 分 布 的 定义 ,可 以 构造 变量 上 

t=(X— pY (Y Vn) 

随机 变量 : IRAS 1) od 4. GG Z 检验 相似 ,在 双边 上 检验 中 ,只 需 
要 找到 上 分布 的 一 % 2 分 位 点 和 of 2 分 位 点 ,就 可 以 确定 拒绝 域 ,进而 判断 
值 是 否 落 入 拒绝 域 。 

我 们 使 用 上 检验 重新 验证 w 与 0. 1 的 关系 。 


构造 两 个 对 立 的 假设 : 
Ho: AH 一 0.1 
Hı: /天 0.1 


假设 Ho KIL t= (X—0. 17 (0. Y V30) 服 从 1(29) 分 布 , 取 a 二 0.05, 可 
得 :分 布 的 一 % 2 分 位 点 和 o 2 分 位 点 分 别 为 一 1.70 和 1.70, 样 本 均值 0. 15 
对 应 的 上 值 为 0. 30, 并 未 落 入 拒绝 域 中 ,因此 我 们 接受 Ho MRE. 
单 边 上 检验 与 双边 上 检验 类 似 , 找 到 一 a 或 a 分 位 点 即 可 确定 拒绝 域 , 这 是 
AHL GR 

BRT pe RANEE A EHRT DEFT ABR USE He ee Eb ac AT DA et PA TE 28. a Be 
LAS RS PNB FE pea 一 js 进行 假设 检验 ,这 些 假设 检验 涉及 X? 检 验 、 下 检验 等 


mH 
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更 复杂 的 检验 方法 ,但 是 基本 思想 和 计算 过 程 与 Z 检验 和 + 检验 类 似 , 感 兴趣 
的 读者 可 以 阅读 盛 又 、 谢 式 干 和 潘 承 毅 老 师 的 《概率 论 与 数理 统计 (第 四 版 )》 
一 书 第 八 章 。 

最 后 ,我 要 向 读者 做 一 个 小 小 的 “检讨 ”。 在 本 节 中 ,我 们 一 直 把 主客 场 胜 
率 差 服从 正 态 分 布 当 作 已 知 条 件 , 这 是 值得 质疑 的 。 在 写作 本 节 前 ,我 本 应 搜 
集 大 量 样本 或 借用 其 他 研究 结果 ,对 主客 场 胜率 差 服 从 正 态 分 布 做 出 验证 ,但 
是 我 没有 做 这 个 工作 。 虽 然 这 并 不 会 影响 假设 检验 的 学 习 , 但 是 我 依然 要 提 
醒 读 者 ,在 实际 应 用 假设 检验 时 ,随机 变量 是 否 服从 正 态 分 布 需要 谨慎 判断 。 


63 反 证 法 : 无 罪 推定 


假设 检验 背后 隐 含 着 的 一 个 经 典 的 证 明 方法 一 一 反 证 法 。 所 谓 反 证 法 ， 
是 先 假设 求证 的 结论 成 立 , 再 尝试 从 假设 和 已 知 条 件 中 推理 出 相悖 的 结论 ,如 
果 相 悖 的 结论 存在 ,说 明 假设 是 错误 的 ,从 而 认定 求证 的 结论 不 成 立 。 

以 双边 Z 检验 为 例 , 我 们 要 求证 明 y= 二 0.5, 首 先 假设 y==0.5 成 立 ,然后 
利用 已 知 条 件 和 采样 数据 进行 推理 ,发 现 jy 二 0.5 对 应 的 QZ 值 落 入 了 拒绝 域 ， 
这 说 明 采 样 数据 并 不 符合 预期 的 正 态 分 布 ,因此 我 们 拒绝 接受 w=0. 5 的 假 
EBM p=0.5 不 成 立 。 

反 证 法 是 逻辑 学 中 一 个 重要 的 证 明 方 法 ,在 很 多 领域 都 有 应 用 ,现代 法 律 
中 的 “无 罪 推 定 ” 原 则 是 反 证 法 的 最 佳 例证 。 


无 罪 推 定 


法 律 的 目标 是 维护 正义 ,惩罚 政 恶 ,每 一 个 执法 者 都 希望 真正 的 罪犯 得 到 
法 律 的 制裁 。 可 是 ,在 法 庭 断案 时 ,执法 者 难免 会 犯 两 类 错误 : 一 类 是 错 杀 ， 
即 为 无 这 者 定 了 罪 ; 男 一 类 是 漏 判 , 即 真正 的 罪犯 没有 得 到 惩罚 。 这 两 类 错 
误 , 哪 一 类 更 应 该 避免 ?恐怕 大 多 数 人 会 认为 一 都 应 该 避免 。 可 是 说 起 来 
容易 ,做 起 来 难 ,因为 要 避免 这 两 类 错误 ,需要 遵从 不 同 的 判断 逻辑 一 一 无 罪 
推定 和 有 罪 推定 。 
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无 罪 推定 的 原则 是 优先 避免 错 杀 ,判断 逻辑 是 ,假设 嫌疑 人 有 罪 ,极力 寻 
找 推翻 假设 的 证 据 , 哪 怕 有 一 个 证 据 能 推翻 假设 ,也 不 能 判定 嫌疑 人 有 罪 ; 有 
罪 推定 的 原则 是 优先 避免 漏 判 ,判断 逻辑 是 ,假设 嫌疑 人 无 罪 ,极力 寻找 推翻 
假设 的 证 据 , 只 要 有 一 个 证 据 能 推翻 假设 ,就 可 以 判定 嫌疑 人 有 罪 。 

无 罪 推 定 虽 然 避免 了 错 杀 , 却 可 能 使 凶手 逃 过 法 律 的 制裁 ,有 罪 推 定 虽然 
避免 了 凶手 漏网 , 却 可 能 使 无 境 的 人 蒙 冤 入 狱 。 现 代 法 律 重视 每 个 人 的 人 权 ， 
此 选择 了 “宁可 漏 判 ,不 可 错 杀 ?的 无 罪 推 定 原则 作为 法 庭 判 案 的 基本 原则 。 
20 世纪 末期 发 生 的 “辛普森 杀 妻 案 ” 是 无 罪 推定 的 代表 案件 。1994 年 6 
月 12 日 深夜 ,洛杉矶 西部 一 豪宅 门 前 发 现 一 男 一 女 两 具 尸 体 。 女 性 死者 是 车 
ZB AWA ERIS By DASE ME AR AY HIT SE WE GE + 辛普森 ,男性 死者 是 餐馆 服务 生 
BUS + 高 曼 , 两 人 均 遭 利器 割 喉 而 死 。 案 发 后 的 凌晨 ,四 名 和 警察 来 到 辛普森 的 住 
所 ,发 现 大 量 证 据 一 一 门 外 的 白色 汽车 染 有 血迹 ,车 道上 也 有 血迹 ,后 院 里 有 
一 只 当 有 血迹 的 手套 。 辛 普 森 在 之 加 哥 酒店 接 到 警方 通知 ,清早 赶 回 加 州 , 几 
天 之 后 ,他 被 列 为 本 案 主 要 嫌疑 犯 , 遭 到 逮捕 。 

庭审 不 久 后 开始 。 检 方 在 开庭 陈 词 中 指控 辛普森 预谋 杀 妻 ,作案 动机 是 
嫉妒 心 和 占有 和 欲 。 离 婚 之 后 ,辛普森 对 妮 克 与 年 轻 英俊 的 男人 约会 非常 吃 栈 ， 
一 直 希 望 破 镜 重 圆 。 案 发 当天 ,在 女儿 的 舞蹈 表演 会 上 妮 克 对 辛普森 非常 准 
淡 , 使 他 萌动 了 杀机 。 服 务 生 郎 ， 高 曼 属于 误 闯 现场 ,偶然 被 杀 。 法 医 鉴 定 表 
明 ,被 害 人 死亡 时 间 大 约 在 22:00 一 22:15。 辛 普 森 声称 ,当晚 21:40 一 22:50 
他 在 家 中 独自 睡觉 ,无 法 提供 证 人 。 辛 普 森 豪宅 中 发 现 的 沾 有 血迹 的 汽车 和 
手套 是 重要 证 据 。 

看 起 来 ,一 切 的 证 据 都 表明 辛普森 是 凶手 ,可 是 , 随 着 庭审 的 进行 ,所 谓 的 
“证 据 ” 却 遭 到 辩 方 律师 的 有 力 反 驶 。 状 方 认为 ,辛普森 作为 一 个 “业余 杀手 ”， 
要 实施 谋杀 理应 用 枪 , 割 喉 的 实施 难度 很 大 而 且 容 易 留 下 大 量 血 证 ,辛普森 前 
妻 妮 克 有 吸毒 史 ,此 番 很 可 能 是 遭遇 黑手 党 的 杀害 ,而 割 喉 恰 恰 是 黑手 党 杀手 
常用 的 杀人 手法 。 案 发 现场 的 血 证 也 存在 诸多 疑点 , 沾 有 血迹 的 袜子 左右 两 
侧 的 血迹 竟然 完全 相同 ,这 不 可 能 是 凶手 穿着 的 袜子 ,更 可 能 是 被 人 涂抹 上 去 
的 ,辛普森 豪宅 后 院 的 五 滴 被 告 血迹 大 小 均匀 、 外 形 完整 ,也 不 合 常 理 。 更 令 
人 生 疑 的 是 ,现场 血迹 中 发 现 了 浓度 很 高 的 歼 合 剂 , 案 发 之 日 ,警方 在 辛普森 
的 血样 中 添加 了 这 种 歼 合 剂 ,并 曾 携 带 血样 返回 案 发 现场 。 最 后 ,辛普森 被 要 
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求 当 庭 戴 上 沾 有 血迹 的 手套 ,可 是 辛普森 折腾 了 很 久 也 很 难 将 手套 戴 上 , 辩 方 
由 此 认为 这 只 手套 太 小 ,根本 不 可 能 是 辛普森 的 。 
辛普森 一 案 是 当时 美国 社会 白人 与 黑人 对 立 的 集中 反映 ,辛普森 虽然 是 
黑人 , 却 喜欢 结交 白人 朋友 ,热衷 于 跻身 富有 的 白人 圈子 , 遭 到 大 多 美国 公民 
的 厌恶 。 庭 审 之 初 ,陪审 团 成 员 普遍 倾向 于 辛普森 有 罪 , 可 是 辩 方 对 现场 证 据 
提出 的 质疑 逻辑 严谨 、 难 以 反驳 ,这 些 质疑 渐渐 动摇 了 陪审 团 的 初始 判断 。 
1995 年 10 月 3 日 ,美国 西部 时 间 上 午 10 点 ,辛普森 案 裁决 即将 宣布 之 时 , 整 
个 美国 一 时 陷入 停顿 ,连同 克林顿 总 统 在 内 的 1 亿 4 千 万 美国 人 收看 或 收听 
了 “世纪 和 审判 ”的 最 后 裁决 一 一 陪审 团 裁决 结果 : 辛普森 无 罪 。 

虽然 辛普森 杀 妻 案 已 经 过 去 了 二 十 多 年 ,但 它 依 然 是 无 罪 推定 的 代表 案 
件 , 我 国法 律 中 虽然 没有 陪审 团 制度 ,但 也 坚持 无 罪 推定 原则 ,下 面 ,我 们 借用 
一 部 电影 来 杀身 感受 一 下 庭审 上 的 无 罪 推定 原则 。 


国产 电影 《十 二 公民 ) 翻 拍 自 经 典 老 片 (十 二 怒 汉 》, 讲 述 了 十 二 个 学 生 家 
长 组 成 陪审 团 审理 案件 的 全 过 程 ,是 一 部 精彩 的 庭审 题材 电影 ,让 我 们 跟随 电 
影 中 的 人 物 一 起 感受 和 学 习 庭 审 中 的 “无 罪 推 定 ” 原 则 。 

“朝阳 区 某 居民 区 内 发 生 杀 人 案件 ,一 名 四 十 岁 左右 的 河南 籍 男子 被 人 刺 
死 在 家 中 , 案 发 现场 的 场景 被 围观 群众 录像 ,视频 一 经 上 传 ,一 小 时 内 点 击 数 
已 破 十 万 ,嫌疑 人 的 姓名 曝光 后 身份 很 快 被 网 友人 肉 出 来 ,此 人 现年 21 岁 ,是 
本 市 有 名 的 富商 之 子 , 死 者 正 是 富 二 代 的 生父 。 不 久 前 ,检察 院 却 做 出 了 存疑 
不 起 诉 的 决定 ,再 次 将 整个 案件 推 到 风口 浪 尖 。 富 二 代 杀 人 案 引 起 社会 各 界 
巨大 反响 ,并 引发 了 各 大 媒体 甚至 法 学 院 的 讨论 热潮 .” 

影片 围绕 着 一 桩 “ 富 二 代 杀 人 案 ” 展 开 。 法 学 院 以 这 桩 知名 的 “ 富 二 代 杀 
人 案 ” 为 英美 法 律 课 的 补考 题目 ,邀请 补考 同学 的 家 长 和 学 校 保安 、 小 卖 店 店 
主 等 十 二 个 “法 律 外 行 ”组 成 模拟 陪审 团 。 在 模拟 庭审 环节 后 ,该 陪审 团 需 要 
在 至 少 一 个 小 时 的 时 间 里 充分 讨论 .得 到 一 致 的 结论 一 一 十 二 票 全 部 赞成 有 
罪 或 者 十 二 票 全 部 赞成 无 罪 。 

接 下 来 ,模拟 陪审 团 的 讨论 正式 开始 。 
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团 长 发 起 第 一 轮 投票 ,结果 是 十 一 票 有 罪 , 一 票 无 罪 。 大 家 本 以 为 这 个 讨 
论 只 是 走 走过场 ,赶紧 投 出 个 十 二 票 有 罪 就 结 了 , 谁 知 8 号 陪审 员 偏偏 投了 无 
罪 。 而 他 的 说 法 竟 是 :“ 我 是 真 觉得 咱们 应 该 讨论 讨论 .其 他 几 位 陪审 员 顿 
时 急 了 ,轮番 发 言 ,试图 说 服 8 号 陪审 员 , 他 们 给 出 的 理由 是 “网 上 铺天盖地 的 
帖子 都 说 人 是 富 二 代 杀 的 天 证 据 挺 明显 的 的 这 就 是 个 一 清二 楚 的 案子 ”。8 号 
陪审 员 的 态度 十 分 坚决 :“ 这 事 咱 不 想 清楚 ,不 说 明白 了 , 随 随 便便 把 手 这 么 
一 举 , 就 把 这 孩子 往 死 道上 这 么 一 推 ,这 , 太 快 了 。” 一 一 8 号 陪审 员 表 现 出 了 一 
位 陪审 员 应 有 的 职业 态度 ,对 待 有 罪 判罚 要 慎之 又 慎 。 此 外 ,陪审 员 要 坚持 自 
己 的 独立 判断 ,不 能 盲目 接受 媒体 和 网 友 的 言论 ,在 一 些 重 大 案件 的 审理 过 程 
中 ,陪审 员 甚 至 会 “享受 ”与 世 隔 绝 的 待遇 ,其 目的 就 是 让 陪审 员 避 免 外 界 干 
扰 , 作 出 独立 判断 。 

接 下 来 ,其 他 11 位 陪审 员 开 始 轮番 表达 意见 ,试图 说 服 8 号 改判 有 罪 。 

10 号 是 个 老 北京 人 ,他 说 :“ 你 得 看 这 是 什么 人 教育 的 孩子 ! 这 孩子 的 亲 
驳 是 河南 一 农民 , 蹲 过 大 狱 还 离 过 婚 , 一 个 能 把 自 个 亲 儿 子 给 扔 了 的 人 他 能 是 
WANS? 这 孩子 的 后 驳 也 是 河南 一 农民 ,也 就 十 年 的 工夫 ,从 负债 累累 到 身价 
过 十 亿 的 药 业 大 款 , 他 这 后 驳 要 不 干 点 违法 乱 纪 的 事 儿 ,他 能 挣 这 么 多 钱 
吗 ?” 一 一 10 号 的 发 言 是 典型 的 主观 腾 断 , 毫 无 事实 根据 ,这 是 陪审 员 的 大 忌 。 

2 号 是 个 胖 墩 墩 的 老好人 ,他 笑 着 说 :“ 关 于 这 个 案子 ,我 没什么 说 的 。 我 
就 是 觉得 ,这 孩子 有 罪 。 因 为 从 反 证 法 的 角度 看 ,我 们 没 法 证 明 这 个 人 不 是 他 
杀 的 啊 。,” 一 一 2 号 很 明显 落 入 了 有 罪 推 定 的 逻辑 ,8 号 马上 纠正 了 他 。 

8 号 说 :“ 我 们 根本 不 用 证 明 不 是 他 ,只 要 证 明证 据 中 存 有 疑点 ”一 一 陪 
审 团 的 职责 是 从 证 据 中 寻找 疑点 ,试图 排除 嫌疑 人 的 杀人 嫌疑 。 

至 此 ,十 二 位 陪审 员 方 才 明 确 了 陪审 团 奉行 的 无 罪 推 定 原则 ,在 8 号 的 指 
引 下 ,陪审 团 开始 整理 证 据 。 

本 案 的 证 据 主 要 有 如 下 3 个 。 

证 据 1: 老头 儿 的 证 词 

住 在 案 发 现场 楼 下 的 老头 儿 , 在 案 发 当天 晚上 12 点 10 分 的 时 候 ,听见 楼 
上 和 爷 俩 儿 吵 起 来 了 ,那个 富 二 代 大 喊 :“ 我 要 杀 了 你 1!” 一 秒 钟 之 后 ,他 又 听见 ， 
有 人 倒 在 地 上 了 ,老头 儿 赶 忙 起 床 跑 到 门口 ,15 秒 左右 ,他 在 自家 门口 刚好 看 
见 那个 富 二 代 从 楼 梯 上 跑 下 来 , 走 了 。 于 是 ,老头 儿 赶 忙 打 电 话 报警 ,警察 来 
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了 发 现 ,死者 的 身上 插 了 一 把 刀 。 

WEHE 2: 凶器 

富 二 代 一 直 在 自己 车 上 放 着 一 把 弹簧 刀 , 这 把 刀 与 犯罪 现场 发 现 的 凶器 
一 模 一 样 , 案 发 后 警察 找 不 到 富 二 代 的 刀 , 富 二 代 说 自己 的 刀 丢 了 。 富 二 代 的 
这 把 刀 被 网 友 曝 光 在 网 上 , 它 外 观 特别 ,还 带 有 编号 ,看 起 来 是 一 把 私人 定制 
的 刀 。 

证 据 3: 女人 的 证 词 

案 发 当晚 , 住 在 案 发 现场 对 面 的 女人 躺 在 床上 驾 转 反 侧 ,无 法 入 睡 , 她 无 
意 中 透 过 驶 过 的 城 铁 车 窗 ,看 见 男孩 捅 了 他 的 生父 。 

其 他 陪审 员 受 到 8 号 陪审 员 的 感召 ,一 同 讨论 起 这 三 个 证 据 , 此 前 看 似 和 
不 可 破 的 “铁证 ?暴露 出 了 很 多 疑点 。 

疑点 1: 凶器 

8 号 陪审 员 在 网 上 花 66 元 买 了 一 把 和 凶器 一 模 一 样 的 弹簧 刀 , 这 说 明 这 
把 刀 并 非 私 人 定制 ,网 友 发 布 的 照片 很 可 能 是 PS 处 理 过 的 。 因 此 , 案 发 现场 
的 刀 并 不 能 与 富 二 代 构 成 必然 联系 。 

疑点 2: 喊 声 

经 陪审 团 估算 ,一 列 6 节 长 的 城 铁 驶 过 案 发 现场 的 窗口 大 约 需 要 6 秒 钟 ， 
并 且 会 发 出 巨大 的 秀 隆 声 , 案 发 现场 离 城 铁 很 近 , 城 铁通 过 时 , 住 在 楼 下 的 老 
头 儿 理应 听 不 清 楼 上 发 出 的 任何 声音 ,自然 也 听 不 清 富 二 代 的 喊 声 。 

疑点 3: 时 间 

住 在 楼 下 的 老头 儿 是 病 子 ,经 陪审 团 现场 模拟 ,老头 儿 从 听见 楼 上 有 人 倒 
地 ,到 挪 步 至 门口 大 约 需要 43 秒 , 这 与 证 词 中 的 “十 五 秒 左右 跑 到 门口 ? 相 
了 矛盾。 

疑点 4: 刀口 

富 二 代 身 高 一 米 七 二 ,死者 身高 一 米 八 三 ,死者 身上 的 刀 是 由 上 向 下 插入 
的 , 侧 跳 型 弹簧 刀 一 般 的 用 法 都 是 由 下 向 上 捅 进去 ,更 何况 死者 比 富 二 代 高 了 
十 一 厘米 ,由 上 向 下 插入 显得 不 合 情 理 。 
疑点 5: 目击 
称 案件 目击 者 的 女人 常常 反 鼻 梁 , 眼 富里 有 两 个 坑 儿 ,喜欢 睐 眼看 东 
西 ,这 些 细节 说 明 这 个 女人 很 可 能 是 近视 眼 ,而 试图 睡觉 的 人 是 不 会 戴 眼镜 
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的 ,一 个 没 戴 眼镜 的 近视 眼 能 否 看 清 几 十 米 外 的 凶杀 过 程 , 令 人 怀疑 。 

至 此 ,最 后 一 个 投 有 罪 票 的 人 也 改判 无 罪 , 标 志 着 陪审 团 最 终 达 成 了 一 
致 ,从 十 一 票 有 罪 一 票 无 罪 , 到 十 二 票 无 罪 , 陪 审 团 的 每 一 个 人 都 更 加 深刻 地 
理解 了 庭审 上 的 无 罪 推定 原则 。 影 片 中 8 号 陪审 员 的 两 句 话 最 能 说 明 无 罪 推 
定 原则 的 内 涵 , 他 说 ， 

“ 谁 也 不 能 随 随 便便 宣布 一 个 人 有 罪 !” 

“你 手 握 生 杀 大 权 , 杀 了 一 个 无 境 的 人 ,你 跟 凶 手 有 什么 区 别 ?” 

读者 可 以 放下 本 书 ,看 看 这 部 电影 ,希望 你 也 能 从 中 领悟 无 罪 推定 的 
HX. 
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导语 : 它 曾 遭 受 质 疑 ,险些 被 遗忘 : 它 的 数学 表达 非常 简单 , 却 
蕴藏 着 深刻 的 概率 思想 ; 它 在 医学 刑侦 .博彩 等 领域 得 到 广泛 应 用 
连 机 器 学 习 算 法 中 也 有 它 的 一 席 之 地 。 它 就 是 概率 统计 中 最 具 实 践 
意义 的 贝 叶 斯 定理 。 


71 牧师 贝 叶 斯 : 深 藏 功 与 名 


在 概率 统计 中 ,大 数 定理 是 最 具 理 论 意 义 的 定理 , 贝 叶 斯 定理 则 是 最 具 
践 意义 的 定理 。 贝 叶 斯 定理 不 仅 在 医学 、 刑 侦 、 博 且 pi 还 
衍生 出 了 朴素 贝 叶 斯 分 类 器 、 贝 叶 斯 网 络 等 新 方法 ,在 机 器 学 习 、 不 确定 性 推 
理 等 领域 也 占有 重要 位 置 。 下 面 我 们 就 来 认识 一 下 贝 叶 斯 定理 的 创始 人 一 一 
“牧师 ” 贝 叶 斯 。 


牧师 贝 叶 斯 


托马斯 * 贝 叶 斯 ( 约 1701 一 1761) 是 一 位 受 人 尊敬 的 英格兰 长 老 会 牧师 ， 
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同时 也 是 英国 皇家 学 会 会 员 。 他 相信 和 神 是 完美 的 ,这 世界 上 之 所 以 还 有 邪恶 
和 苦难 ,是 因为 人 类 对 自然 和 宇宙 的 了 解 还 不 够 ,所 以 我 们 要 不 断 探索 宇宙 的 
规律 。 业 余 时 间 里 ,他 喜欢 研究 一 些 逻 辑 和 概率 方面 的 问题 。 当 时 ,人 们 对 概 
率 的 认识 还 十 分 肤浅 ,如 何 理解 “ 逆 概 率 ” 尚 无 定论 ,这 引起 了 贝 叶 斯 的 兴 

常见 的 概率 问题 往往 是 这 样 的 : 已 知 袋子 里 有 5 个 红 球 、8 个 蓝 球 , 闭 上 
眼睛 拿 出 一 个 , 拿 到 红 球 的 概率 是 多 少 ? 这 是 “ 正 概率 ”问题 。“ 逆 概率 ”问题 
与 之 相反 : 袋子 里 有 很 多 红 球 和 蓝 球 , 从 中 随意 拿 出 5 个 ,发 现 3 个 是 蓝 球 、2 
个 是 红 球 ,那么 袋子 里 红 球 和 蓝 球 的 比例 可 能 是 怎样 的 ? 

贝 叶 斯 利用 业余 时 间 对 “ 北 概 率 ” 问 题 做 了 很 多 研究 ,并 撰文 记录 下 了 自 
己 的 研究 成 果 。 可 惜 贝 叶 斯 提出 的 理论 与 当时 的 主流 统计 观点 相左 ,他 的 研 
究 成 果 因 此 遭 到 了 冷落 。 贝 叶 斯 死 后 两 年 ,他 的 好 友 理 查 德 ， 普 莱 斯 将 他 的 
文章 寄 给 了 英国 皇家 学 会 ,这 篇 贝 叶 斯 定理 的 开山 之 作 方 才 公之于众 。 

贝 叶 斯 撰写 的 文章 是 《机 会 问题 的 解法 》(An essay towards solving a 
problem in the doctrine of chances) ,文章 的 表达 清晰 明确 ,将 “ 逆 概 率 ” 问 题 以 
点 、 线 , 面 的 方式 直观 的 呈现 出 来 ,并 在 解答 过 程 中 提出 了 贝 叶 斯 公式 。 更 让 
人 钦佩 的 是 ,文章 中 有 关 概 率 的 表述 十 分 准确 , 却 没 有 使 用 任何 概率 相关 的 数 
学 表达 式 , 对 一 个 “业余 ”的 数学 爱好 者 来 说 实 属 不 易 。 

后 来 ,法 国 数学 家 拉 普 拉 斯 把 贝 叶 斯 定理 总 结 为 一 个 简洁 的 数学 表达 式 ， 
从 此 贝 叶 斯 定理 被 人 们 接受 ,并 得 到 了 越发 广泛 的 应 用 。 


贝 叶 斯 定理 


贝 叶 斯 定理 之 所 以 得 到 广泛 应 用 ,与 其 简洁 的 表达 式 不 无 关系 。 在 “条 件 
概率 ”一 节 我 们 学 习 过 如 下 公式 : 
P(AB) = P(A | B) + P(B) 
P(B) = P(AB) + P(AB) 
式 中 ,A MB 分 别 表示 两 个 随机 事件 ,A 表示 A 的 逆 事 件 , 即 事件 A 不 发 生 。 
将 这 个 公式 做 简单 的 数学 变换 , 便 可 以 得 到 贝 叶 斯 定理 的 表达 式 : 
P(A | B) = P(B | A) .PAY P(B | A) + P(A) + P(B | A) + P(A) 
这 个 公式 看 起 来 并 不 “简洁 ,这 是 概率 的 表达 符号 带 给 你 的 错觉 ,我 们 用 
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工 表 示 P(A), 用 yy 表示 PC(B1A), 用 < 表示 PC(B|A), 便 可 以 把 贝 叶 斯 定理 改 
写成 下 面 的 形式 : 
P(A | B) = zy [zy +201 — 2x) ] 

改写 过 后 , 贝 叶 斯 定理 显得 简洁 多 了 , 它 的 含义 也 变 得 清晰 了 。 要 计算 条 
件 概率 P(A1B) ,只 需要 知道 P(A)、.P(B|A) 和 P(BIA)。 明 明 是 把 计算 量变 
大 了 ,为 什么 说 “只 需要 ”? 因为 计算 难度 降低 了 。 在 很 多 现实 问题 中 ,P(A1B) 
往往 难以 直接 计算 ,而 P(A)、P(BIA) 和 PC(BIA) 却 可 以 计算 (或 估算 ) 出 来 , 贝 
叶 斯 定理 的 奥秘 就 在 于 此 。 

我 们 一 起 来 看 下 面 这 个 例子 一 一 “你 身上 有 她 的 香水 味 ”。 

你 和 丈夫 新 婚 刚 刚 半年 , 正 是 如 胶 似 漆 的 时 候 , 丈 夫 却 忽然 因 公 出 差 一 个 
月 。 你 盼 着 , 盼 着 ,一 个 月 后 ,终于 把 丈夫 盼 回来 了 。 可 是 ,就 在 你 拥抱 归来 的 
丈夫 时 ,你 的 鼻子 却 嗅 到 了 不 该 嗅 到 的 气味 一 一 女人 的 香水 味 。 你 知道 ,女人 
的 鼻子 永远 不 会 犯错 ,这 一 定 是 另 一 个 女人 留 下 的 味道 ! 你 无 法 排解 心中 的 
难过 和 纠结 : 难道 丈夫 出 轨 了 ? 

下 面 我 们 用 贝 叶 斯 定理 计算 “丈夫 出 轨 的 概率 ”。 

设 随 机 事件 A 表示 丈夫 出 轨 , 随 机 事件 B 表示 丈夫 身上 有 其 他 女人 的 香 
水 味 ,我 们 的 计算 目标 是 P(A1B)。 根 据 贝 叶 斯 定理 ,我 们 要 分 别 计 算 P(A)、 
P(B|A) 和 PC(B|A) 三 个 概率 值 。P(A) 表 示 在 没有 任何 已 知 条 件 时 丈夫 出 轨 的 
概率 ,假设 你 相信 自己 的 丈夫 很 专 一 , PCA) = 1% ,这 个 概率 相当 低 。P(BIA) 表 
示 , 在 丈夫 出 轨 的 前 提 下 香水 味 出 现 的 概率 ,这 个 概率 一 定 很 高 ,但 是 你 丈夫 
并 不 傻 , 出 轨 之 后 一 定 会 试图 洗 白 自己 ,综合 来 看 ,这 个 概率 可 以 设 为 60%。 
P(BIA) 表 示 丈 夫 没 出 轨 的 前 提 下 香水 味 出 现 的 概率 ,也 许 是 结伴 女 同事 在 丈 
夫 身上 留 下 的 ,可 是 丈夫 所 在 的 公司 女 同事 很 少 ,这 种 情况 出 现 的 概率 很 低 ， 
估计 只 有 10%. 

估算 出 了 PCA), POIAR P(CBIA) 三 个 概率 值 , 便 可 以 代入 贝 叶 斯 公式 
中 ,得 到 丈夫 出 轨 的 条 件 概率 为 P(A|B) 王 6% ,你 长 舒 一 口气 ,丈夫 出 轨 的 概 
率 还 是 很 低 的 。 

在 这 里 例子 中 ,你 对 丈夫 本 人 的 极度 信任 十 分 关键 ,如 果 你 对 他 的 信心 稍 
有 动摇 ,比如 P(A) 二 10% ,其 他 条 件 都 不 变 . 丈 夫 出 轨 的 条 件 会 暴涨 到 40%! 

P(A) 被 称 为 先 验 概率 ,在 很 多 实际 问题 中 ,P(A) 只 能 借助 主观 推测 ,这 
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也 是 贝 叶 斯 定理 自 提出 之 日 起 就 为 人 质疑 的 一 点 。 为 了 据 除 主观 推测 的 干 
扰 ,统计 学 家 们 提出 了 “频率 主义 ”。 


频率 主义 w 贝 叶 斯 定理 


频率 主义 是 统计 学 中 的 一 种 思想 , 它 力图 握 弃 任何 主观 推测 ,站 在 绝对 客 
观 的 角度 搜集 数据 ,并 用 严谨 的 数学 模型 概括 数据 的 特征 。 推 崇 频 率 主义 的 
统计 学 家 会 无 止境 地 搜集 数据 ,对 数据 的 概率 分 布 做 出 统计 假设 ,再 用 假设 检 
验 来 验证 统计 假设 是 否 正 确 。 然 而 ,这 种 思想 有 明显 的 “完美 主义 ”倾向 ,容易 
脱离 现实 。 比 如 ,频率 主义 始终 在 力图 解释 抽样 误差 , 它 希望 找到 、 也 相信 和 能 
找到 一 个 通用 的 方法 来 计算 抽样 误差 ,从 而 消除 统计 偏差 , 却 始终 未 能 实现 。 
在 当下 的 大 数据 时 代 , 样 本 近乎 就 是 总 体 ,抽样 误差 不 再 存在 ,然而 即便 使 用 
总 体 中 的 全 部 数据 ,也 往往 无 法 做 出 合理 的 统计 推断 ,因为 数据 越 多 ,噪声 也 
越 多 。 

“不 识 访 山 真面目 ,只 缘 身 在 此 山中 ”, 我 们 生活 在 世界 上 ,很 难 找到 绝对 
客观 的 视角 来 看 待 世界 。 贝 叶 斯 定理 的 确 包含 主观 推断 ,可 是 定理 中 的 主观 
推断 通常 是 以 经 验 数据 作为 参考 ,即便 主观 推断 最 初 可 能 出 错 , 还 可 以 借助 经 
验 数据 的 搜集 ,不 断 迭 代 和 更 新 主观 推断 ,一 步 步 接近 真相 。 相 比 于 频率 主 
义 ,' 贝 叶 斯 定理 更 加 接地 气 ,在 医学 博彩、 刑侦 等 很 多 实际 问题 中 , 贝 叶 斯 定 
理 都 发 挥 了 不 可 替代 的 作用 。 


72 WARMI: 一 赌 定 终身 


每 年 11 月 ,NBA 会 迎 来 新 赛季 , 身 住 洛杉矶 的 富豪 哈 若 拉 波 斯 乌 尔 力 
利 斯 也 开始 了 新 赛季 的 工作 。 每 天 晚上 ,他 会 对 着 家 中 的 5 台 高 清平 板 电视 
机 ,同时 观看 5 场 比 赛 ,更 新 自己 的 比赛 数据 库 ,并 为 下 一 次 下 注 做 好 准备 。 
乌 尔 加 利 斯 是 一 位 “NBA 职业 赌 客 ”, 他 不 仅 没 有 因为 赌博 输 钱 , 正 相反 ,他 
为 赌博 而 成 了 干 万 富 伍 。 年 景 不 好 时 , 乌 尔 加 利 斯 也 能 赚 到 100 万 美元 ,年 景 
好 时 , 赚 上 三 四 百 万 美元 也 不 在 话 下 。 乌 尔 加 利 斯 是 怎样 成 为 “财神 ”的 ? 一 
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次 疯狂 的 下 注 成 就 了 他 。 

乌 尔 加 利 斯 出 生 于 加 拿 大 ,他 的 父亲 曾经 坐 拥 300 万 美元 身家 , 却 因 嗜 赌 
而 破产 。 乌 尔 加 利 斯 继承 了 父亲 的 基因 ,从 小 就 对 赚钱 拥有 强烈 的 欲望 ,他 在 
大 学 期 间 做 了 很 多 份 兼职 , 赚 到 了 人 生 的 第 一 笔 8 万 美元 。 就 在 大 四 这 一 年 ， 
他 意外 地 陷入 一 场 赌局 中 而 无 法 自拔 , 这 场 赌局 就 是 一 一 湖人 队 能 否 夺 得 
1999— 2000 赛季 NBA 总 冠军 。 

那 一 年 ,湖人 队 聘 用 了 ”禅师 " 菲 尔 ' 杰克 逊 当 教练 , 阵 中 坐 拥 全 联盟 最 强 
中 锋 “ 大 将 鱼 ?奥尼尔 ,天 赋 异 豪 的 明星 后 卫 科 比 ,以 及 一 批 实力 不 俗 的 角色 球 
员 。 但 这 似乎 并 没有 让 拉 斯 维 加 斯 的 赌 客 们 高 看 湖人 队 。 上 个 赛季 ,湖人 队 
一 直 风 波 不 断 , 年 轻 气 盛 的 科比 与 奥尼尔 爆发 了 了 矛盾, 球 队 三 次 换 帅 ,最 终 在 
季 后 赛 被 马刺 队 横扫 出 局 。 本 赛季 常规 赛 第 三 场 , 湖 人 队 输 给 了 经 验 老 到 的 
拓 者 队 , 更 糟糕 的 是 ,奥尼尔 在 场 上 发 闫 被 裁判 驱逐 出 场 ,一 切 似乎 都 是 上 
个 赛季 的 重演 ,湖人 队 要 在 残酷 的 季 后 赛 中 战胜 马刺 队 和 开拓 者 队 简直 是 天 
方 夜 谭 。 

1 赔 7.5 一 一 拉 斯 维 加 斯 的 庄家 调 高 了 湖人 队 夺 冠 的 赔 率 ,湖人 队 的 家 乡 
媒体 (洛杉矶 时 报 》 也 看 衰 湖人 队 的 前 景 。 乌 尔 加 利 斯 是 个 喜欢 挑战 权威 的 小 
伙 子 ,他 很 欣赏 菲 尔 .杰克逊 的 执教 风格 ,并 且 深 信 湖 人 队 不 会 如 此 不 堪 , 他 
决定 赌 一 把 ! 除了 必需 的 生活 费 外 ,他 把 自己 打工 赚 来 的 8 万 美元 全 部 下 注 
湖人 队 夺 冠 。 以 这 个 赔 率 计算 ,如 果 湖 人 队 最 终 问鼎 冠军 , 乌 尔 加 利 斯 会 赚 到 
50 万 美元 ! 

他 真 的 赚 到 了 ! 

那 一 年 ,湖人 队 在 常规 赛 取 得 了 61 胜 21 负 的 不 俗 战绩 ,但 是 到 了 季 后 
赛 , 他 们 遭遇 了 国王 队 和 开拓 者 队 的 强力 阻击 。 对 阵 开 拓 者 队 的 西部 决赛 被 
拖 入 一 场 决 胜 的 抢 七 大 战 ,第 三 节 临 近 打 完 时 ,湖人 队 居 然 在 自己 的 主场 落后 
16 分 之 多 ,参照 历史 数据 ,湖人 队 翻 盘 的 概率 不 足 20% 。 即 便 难 以 取胜 ,湖人 
队 也 决 不 能 在 家 乡 父老 面前 缴械 投降 。 最 后 一 节 , 在 主场 球迷 的 疯狂 呐喊 中 ， 
湖人 队 众 志 成 城 ,将 比分 一 步 步 迫 近 , 并 借助 科比 的 两 粒 罚球 一 举 反超 ,最 终 
乘势 拿 下 了 比赛 胜利 。 神 奇 的 主场 优势 助 湖人 队 完 成 了 不 可 思议 的 大 逆转 ! 
总 决赛 中 ,湖人 队 轻松 战胜 步行 者 队 ,顺利 夺冠 ! 

这 一 赌 开 启 了 乌 尔 加 利 斯 的 财神 之 路 ! 乌 尔 加 利 斯 有 了 足够 的 资金 ,能 
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够 承担 起 小 额 投注 的 风险 ,于 是 他 开始 尝试 成 为 NBA 职业 赌 客 。 他 会 在 某 个 
NBA 比赛 日 同时 下 注 三 ` 四 场 比赛 ,并 不 断 矫正 自己 的 投注 策略 。 后 来 ,他 开 
始 搜集 各 场 比赛 的 相关 信息 ,寻找 比赛 过 程 . 比 赛 结 果 与 赛 前 各 种 信息 之 间 的 
关联 ,比如 , 某 个 球员 的 绯闻 女友 在 推 特 上 暗示 今 晚 要 和 这 个 球员 去 夜总会 ， 
可 这 个 球员 的 心思 根本 不 在 比赛 上 ,他 在 当晚 比赛 中 的 表现 八成 会 很 糟糕 。 
乌 尔 加 利 斯 不 断 优 化 自己 的 投注 策略 ,搜集 的 信息 也 越 来 越 多 ,现在 他 经 营 着 
一 家 球 探 机 构 , 雇 用 球 探 来 搜集 比赛 信息 ,并 详细 分 析 各 支 球 队 的 攻防 战术 。 
此 外 ,他 还 关注 超过 100 位 NBA 球员 和 教练 的 推 特 账号 ,从 中 搜集 球员 在 赛 
前 赛 后 的 各 种 言论 , 球 队 教练 在 赛 前 新 闻 发 布 会 上 的 措辞 也 是 乌 尔 加 利 斯 重 
点 关注 的 内 容 。 这 些 信息 最 终 会 输入 乌 尔 加 利 斯 的 一 个 计算 机 仿真 程序 中 ， 
帮助 他 模拟 比赛 结果 。 

马尔 加 利 斯 认为 ,没有 什么 理论 能 够 准确 地 预测 未 来 ,但 是 ,未 来 却 是 由 
当下 不 断 发 生 的 各 种 事件 共同 决定 的 ,比赛 的 胜 负 如 同 股票 指数 一 样 变 幻 莫 
测 , 每 一 个 利好 或 利空 消息 都 会 产生 或 大 或 小 的 影响 ,成功 的 赌 徒 从 纷繁 复杂 
的 消息 中 去 除 噪声 ,判断 这 些 消 息 产生 的 影响 到 底 有 多 少 。 我 们 很 难 把 乌 尔 
加 利 斯 的 方法 抽象 成 某 种 数学 理论 一 一 当然 ,他 也 不 会 告诉 我 们 他 的 方法 是 
什么 一 一 但 我 们 知道 ,隐藏 在 他 的 方法 背后 的 思想 正 是 贝 叶 斯 定理 。 


湖人 队 的 夺冠 概率 


时 间 回 溯 到 1999 年 11 月 , 乌 尔 加 利 斯 加 入 了 * 湖 人 队 能 否 在 2000 年 夺 
冠 ? 的 赌局 中 ,当时 NBA 常规 赛 刚刚 进行 了 12 场 比赛 ,湖人 队 的 战绩 是 8 胜 4 
负 , 根 据 这 个 已 知 条 件 , 我 们 来 计算 湖人 队 夺 冠 的 概率 有 多 少 。 

设 定 随 机 事件 A 表示 湖人 队 夺 冠 ,随机 事件 B 表示 前 12 场 比赛 HE 4 
负 , 求 解 PCA1B) 的 过 程 如 下 所 述 。 

(1) 估算 先 验 概率 P(A) 。 联 盟 至 少 有 2 支 球 队 的 实力 与 湖人 队 相当 ,而 
且 湖 人 队 在 上 个 赛季 的 季 后 赛 被 马刺 队 横扫 出 局 ,因此 湖人 队 本 赛季 夺冠 的 
概率 并 不 会 高 ,可 以 设 为 20%。 

(2) 估算 PC(B1A) 和 PC(BIA)。 我们 可 以 查阅 NBA 的 历史 资料 ,以 最 近 
几 个 赛季 的 联盟 强 队 的 战绩 为 参考 ,估算 湖人 队 夺 冠 和 不 夺冠 的 情况 下 ,出现 
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8 胜 4 负 战绩 的 概率 ,假设 它们 分 别 为 60% 和 50%。 
(3) 根据 贝 叶 斯 定理 ,可 以 计算 得 到 湖人 队 夺 冠 的 概率 为 : 
P(A|B)=P(B|A).P(AY P(B|A).:P(A)+P(B|A). P(A) 
=" = 23% 

可 见 ,湖人 队 的 开局 战绩 并 没有 拉 低 夺冠 概率 。 按 照 1 赔 7.5 的 赔 率 ,在 
FÈ 8 万 美元 赌 湖 人 队 夺 冠 的 情况 下 ,如 果 湖 人 队 夺 冠 可 以 得 到 52 万 美元 的 
净利 润 ,如 果 湖 人 队 没 能 夺冠 ,将 失去 8 万 美元 ,因此 , 乌 尔 加 利 斯 在 这 个 赌局 
中 的 获 利 期 望 是 : 

E( 获 利 ) = 23% x 52+77% x (一 8) = 5.8( 万 美元 ) 

可 见 , 对 乌 尔 加 利 斯 来 说 ,这 个 赌局 是 有 利 可 图 的 。 虽 然 他 最 终 凭 借 这 个 
赌局 一 举 成 为 富翁 ,但 他 清楚 ,概率 只 有 在 多 次 试验 中 才 会 发 挥 效 应 ,要 坚持 
使 用 贝 叶 斯 定理 的 思想 ,同时 不 断 优化 自己 的 投注 策略 ,才能 成 为 一 个 成 功 的 
赌 客 。 虽 然 乌 尔 加 利 斯 靠 赌博 赚 到 了 很 多 钱 , 但 是 他 的 下 注 正 确 率 也 只 能 达 
到 57% ,去 掉 庄 家 的 “ 抽 头 ”, 只 剩 下 非常 小 的 获 利空 间 ,正如 大 数 定理 对 庄家 
的 作用 一 样 , 只 要 能 一 直 保 持 57% 的 正确 率 ,看 似 微小 的 盔 利 就 会 像 滚雪球 一 
样 积 少 成 多 ,这 就 是 成 功 赌 客 的 秘诀 。 


73 死神 贝 叶 斯 : KEDAH 


T 


“战争 "是 人 类 文明 史上 的 高 频 词 , 距 今 仅 100 年 前 ,第 一 次 世界 大 战 正 
在 无 情 地 吞噬 着 欧洲 大 陆 上 的 生命 ,1918 年 11 月 ,第 一 次 世界 大 战 结束 , 留 
下 了 1 000 万 人 丧生 .2 000 万 人 受伤 的 惨烈 数字 。20 年 后 ,法 西 斯 头目 阿 
道夫 希特勒 和 墨 索 里 尼 联 手 挑 起 了 第 二 次 世界 大 战 , 经 过 6 年 的 苦战 , 世 
界 反 法 西 斯 同盟 战胜 了 法 西 斯 轴 心 国 , 却 付出 了 7 000 万 人 死亡 .上 亿 人 受 
伤 的 惨痛 代价 。 经 过 这 次 波及 全 球 的 世界 大 战 , 反 法 西 斯 同盟 的 各 国 绝 不 
希望 再 次 爆发 大 规模 战争 ,由 此 成 立 了 联合 国安 理会 ,共同 维护 世界 和 平和 
安全 。 此 后 的 数 十 年 ,地 球 告别 了 大 规模 战争 ,全 世界 的 经 济 、 科 技 日 益 发 
展 繁荣 ,然而 ,在 和 平 发 展 的 表象 下 .一 股 黑暗 势力 正在 滋生 和 扩张 , 它 就 
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恐怖 主义 ,是 指 恐 怖 组 织 对 非 武 装 人 员 ( 通 常 是 平民 ) 进 行 暴力 袭击 ,以 实 
现 其 政治 或 宗教 目的 ,袭击 方式 包括 制造 爆炸 、 动 机 ,绑架 、 暗 杀 等 。 恐 体 组 织 
包括 极 左 ( 右 ) 翼 恐怖 主义 团体 极端 的 宗教 主义 或 种 族 主 义 组 织 等 ,他 们 往往 
有 非常 明确 的 政治 或 宗教 诉求 ,拥有 强大 的 资金 支持 ,能 够 从 世界 各 地 招募 成 
员 , 并 将 他 们 训练 成 无 比 虔 诚 的 教徒 ,然后 针对 特定 目标 发 动 自杀 式 恐 怖 袭 
击 。 当 下 规模 最 大 、 最 活跃 的 恐怖 组 织 非 IS 莫 属 。 

伊斯兰 国 (Islamic State, IS) ,前 称 伊拉克 和 大 叙利亚 伊斯兰 国 (Islamic 
State of Iraq and al Shams, ISIS) ,是 一 个 活跃 在 伊拉克 和 叙利亚 的 极端 恐怖 
组 织 。 在 2003 年 ,伊拉克 战争 期 间 ,IS 还 只 是 “基地 ?组 织 的 一 个 分 支 , A 
2011 年 基地? 组织 头目 本 拉登 被 美军 击毙 ,美军 随即 撤 出 伊拉克 ,此 后 IS 
组 织 迅 速 壮 大 , 趁 叙利亚 内 战 之 机 进驻 叙利亚 ,于 2014 年 2 月 宣布 “建国 ”， 
“ 定 都 ?叙利亚 城市 拉 卡 。 随 后 ,IS 脱离 “基地 ”组 织 独 立 发 展 。2014 年 6 H, 
TS 头目 巴格达 迪 宣 布 在 伊拉克 和 叙利亚 建立 伊斯兰 帝国 ,不 久之 后 ,阿富汗 恐 
怖 组 织 塔利班 宣布 效忠 IS, 助 其 建立 全 球 性 的 伊斯兰 帝国 。 

2014 年 9 月 ,美国 联合 英国 、 法 国 等 54 个 国家 和 欧盟 、 北 约 等 国际 联盟 发 
动 了 对 IS 的 军事 打击 ,接连 遭遇 空袭 和 地 面 袭 击 的 IS 组 织 开始 疯狂 回击 ,他 
们 先后 对 法 国 、 英 国 和 日 本 公民 实施 斩首 ,并 将 斩首 视频 公之于众 。 此 后 ,他 
们 对 欧洲 实施 了 两 起 骇人听闻 的 恐怖 袭击 。 第 一 起 是 法 国 巴黎 的 "11， 13” 
怖 袭击 ,2015 年 11 月 13 日 晚 ,法 国 首 都 巴黎 的 市 中 心 连续 发 生 多 起 枪击 和 爆 
炸 事件 ,造成 128 人 死亡 ,99 人 重伤 ,IS 随后 宣布 对 该 事件 负责 ,并 称 其 为 一 
个 “奇迹 ”; 第 二 起 是 比利时 布鲁塞尔 的 3， 22” 恐 饰 袭击 ,袭击 发 生前 四 天 , 布 
和 鲁 塞 尔 疝 方 刚刚 逮捕 了 巴黎 恐怖 袭击 案 的 一 名 在 逃 嫌 犯 萨 拉 赫 .* 阿 卜 杜 勒 
萨 拉 姆 ,引发 了 布鲁塞尔 的 穆斯林 居民 集体 骚乱 ,四 天 后 的 2016 年 3 月 22 日 
晚上 ,布鲁塞尔 机 场 发 生 枪 击 和 爆炸 ,随后 位 于 欧盟 委员 会 附近 的 地 铁 站 发 生 
爆炸 ,该 事件 造成 至 少 34 人 死亡 ,IS 随后 宣布 对 该 事件 负责 。 

从 20 世纪 末 到 现在 .恐怖 组 织 制 造 的 恐怖 袭击 数不胜数 ,如 表 7-1 所 示 。 
这 些 恐 怖 袭击 大 多 为 连环 袭击 ,这 是 巧合 还 是 必然 ? 下 面 我 们 用 贝 叶 斯 定理 
来 揭秘 连环 恐怖 袭击 的 秘密 。 
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表 7-1 全 世界 近 30 EHER hR 

发 生 时 间 Betti als Het 伤亡 情况 
1988 212 Al pee _ ; 机 上 259 人 和 地 
ss 洛克 比 空难 :一 枚 炸弹 在 美 航 103 班机 上 被 引爆 | BLE 29 人 
1995 年 3 月 | 在 日 本 东京 交通 最 繁忙 的 3 条 地 铁 的 15 个 车 站 同 | 10 人 死亡 ,75 A 
20 日 时 发 生 毒 气 事件 重伤 

998 年 8 月 |“ 基地 "组 织 用 炸弹 袭击 了 美国 在 肯尼亚 首都 内 罗 | y, y yp 

7 日 毕 和 坦桑尼亚 港口 城市 达 累 斯 萨 拉 姆 的 大 使 亿 

2001 年 9 月 | “9-1 Ht, ARAM A wR Oe LE 

1 日 向 世贸 中 心 和 五 角 大 楼 ANE 
2002 年 10 月 | CIRE E ERR EEEN | 502 ge 

2 日 爆炸 

2003 年 8 月 了 WE 100 多 人 死亡 ， 
伊拉克 南部 清真 寺 发 生 汽车 炸弹 爆炸 Lo 
2004 年 3 月 | 马德里 爆炸 案 : 西班牙 首都 马德里 发 生 3 列 旅客 列 | 至 少 198 人 死亡 ， 

1 日 车 连环 井 炸 事件 约 1 800 人 受伤 
2005 年 7 月 | 伦敦 市 中 心 金融 区 的 地 铁 站 和 两 辆 巴士 相继 发 生 | 52 人 死亡 ,700 多 
7 日 爆炸 人 受伤 

2006 年 7 月 | 在 印度 莲 买 下 班 繁 忙 时 间 发 生 的 7 次 连环 爆炸 炸 

1A Ak AE AE WE 

2008 年 8 月 | 两 名 暴 丽 分 子 在 中 国 新 疆 维吾尔 自治 区 喀什 市 驾 | 17 名 官兵 殉职 ， 
4 日 车 袭击 边防 官兵 并 引爆 爆炸 物 15 人 受伤 

2014 年 5 月 |“ 博 科 对 地 ”组织 对 尼日利亚 东北 部 一 座 边境 城市 

6 日 RIRE 约 300 人 死亡 
ee 11 月 | 法 国 巴黎 发 生 连续 枪击 和 爆炸 至 少 197 人 死亡 
2016 年 3 月 | 比利时 布 各 大 尔 扎 芬 特 姆 国际 机 场 出 发 大 厅 发 生 | 二 g t 
22 Fe 爆炸 ,随后 欧盟 总 部 附近 地 铁 站 发 生 爆 炸 
ERRETES 


对 待 小 概率 事件 ,统计 数字 不 仅 无 用 , 而且 会 使 人 麻木 ,震惊 全 球 的 
“9+ 11” 事 件 是 最 好 的 例证 。2001 年 9 月 11 日 “基地 ?组 织 的 恐怖 分 子 劫持 
了 四 架 大 型 客机 ,其 中 两 架 撞 击 了 世贸 中 心 的 南 楼 和 北 楼 ,一 架 撞 击 了 美国 国 


防 部 五 


ARE. RA — RRA. “9 ， 
“想象 力 ”。 在 “9* WL SRE BOE Bi + SLE A ABB). AH 


11" 事 件 彻底 挑战 了 美国 安保 部 门 的 


会 驾驶 飞机 撞 
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rh 


6 世贸 中 心 大 楼 。 因 为 统计 数字 告诉 我 们 ,在 “9 11? 事 件 前 的 25 000 RE, 
哈 顿 上 空 一 直 有 飞机 通航 ,但 是 只 发 生 过 两 次 类 似 * 幢 楼 ”的 事件 ,因此 ,从 
间 来 衡量 “飞机 撞 大 楼 ?发 生 的 概率 只 有 0.008%, 如果 按照 飞机 架次 来 衡 
量 则 更 低 。 与 此 同时 , 另 一 组 数据 却 没有 受到 应 有 的 重视 , 自 1995 年 起 ,全 球 的 
自杀 式 袭 击 数量 大 幅 增加 ,2000 年 迎 来 了 最 高 峰 一 一 39 起 ,而 且 早 在 1998 年 ， 
“基地 ?组 织 就 曾 企图 用 飞机 撞击 世贸 中 心 大 楼 ,但 未 能 得 偿 。 北 美 航空 航天 
防御 司令 部 曾 提 议 进 行 一 次 有 关 “ 被 动 客 机 袭击 五 角 大 楼 ”的 军事 演习 , 却 
这 一 想法 太 不 现实 而 未 被 采纳 。 整 个 美国 都 被 现实 束缚 了 想象 力 。 

从 历史 统计 数据 上 看 “和 恐怖 分 子 蜀 机 撞 世 贸 中 心 大 楼 ?的 确 是 小 概率 事 
件 , 但 是 在 特定 的 时 期 ,特定 的 条 件 下 ,这 一 事件 却 未 必 是 “小 概率 ”的 ,尤其 是 
在 类 似 事件 已 经 发 生 的 情况 下 。 当 了 恐怖 分 子 驾 驶 第 一 架 被 劫 客机 撞 上 世贸 中 
心 大 楼 的 时 候 ,这 件 事 瞬间 便 不 再 是 小 概率 事件 了 ,不 仅 如 此 ,“ 飞 机 再 次 撞击 
世贸 中 心 大 楼 ”几乎 是 一 定 的 ! 一 切 都 归 因 于 贝 叶 斯 定理 。 

设 随 机 事件 A 表示 “ 恺 怖 分 子 驾 机 撞 世 贸 中 心 大 楼 ”, 随 机 事件 B 表示 
“飞机 第 一 次 撞击 世贸 中 心 大 楼 ”, P(A)、P(B|A) 和 P(B1A) 如 表 7-2 所 示 。 
由 于 美国 历史 上 从 未 发 生 过 类 似 事件 ,所 以 我 们 把 先 验 概率 P(A) 设 成 
0. 005% ,根据 贝 叶 斯 定理 ,P(A1B)= 二 38%。 也 就 是 说 ,仅仅 "恐怖 分 子 驾 机 撞 
击 世贸 中 心 大 楼 ”这 一 个 事件 的 发 生 ,就 让 * 飞 机 撞击 世贸 中 心 大 楼 ?这 一 事件 
的 先 验 概率 从 0. 005% 暴 涨 到 38% ! 

表 7-2 ”已 知 恐 怖 分 子 驾 机 撞击 世贸 中 心 大 楼 时 的 贝 叶 斯 定理 


曼 
时 


Ji 件 计算 公式 概率 (%) 
恐怖 分 子 驾 机 撞 世贸 中 心 大 楼 P(A) 0.005 
e 飞机 第 一 次 撞击 PUBIA) iå 
= ____ PCAIB) aie 
更 要 命 后 头 ! 


ug A 表示 “恐怖 分 子 再 次 驾 机 撞 世 贸 中 心 大 楼 ”, 随 机 事件 B 表 
示 “ 第 二 架 飞 机 撞 上 世贸 中 心 大 楼 ”, P(A)、P(B1A) 和 P(BIA) 如 表 7-3 所 
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示 , 在 先 验 概率 38% 的 情况 下 ,P(A1B) 居 然 高 达 99. 99%! 这 似乎 应 了 中 国 


的 那 名 老话 一 一 祸 不 单行 ! 


表 7-3 已 知 恐 怖 分 子 第 二 次 驾 机 撞击 世贸 中 心 大 楼 时 的 贝 叶 斯 定理 


事 件 计算 公式 概率 (%) 
恐怖 分 子 再 次 驾 机 撞 世 贸 中 心 大 楼 P(A) 38. 46 


已 知 灵 怖 分 子 再 次 驾 机 挤 世 贸 中 心 大 楼 ,第 二 架 飞 机 
撞 上 世贸 中 心 大 楼 P(B\A) 100 
AA TRAE ER AEN pares - 

二 架 飞 机 撞 上 世贸 中 心 大 楼 (意外 事故 ) PED eane 
CAA OLED AMR FBS | paip re 


子 驾 机 撞 上 世贸 中 心 大 楼 


贝 叶 斯 定理 为 我 们 开启 了 另 一 个 视角 ,去 看 待 地 震 、 瘟 疫 、 金 融 危机 等 “小 
概率 事件 ”。 统计 数字 只 能 告诉 我 们 ,这 些 事 件 极 少 发 生 , 可 是 这 没有 实践 意 
义 。 事 实 是 , 当 某 些 相关 事件 发 生 时 ,小 概率 事件 很 可 能 会 变 成 普通 事件 ,其 
至 必然 事件 ! 所 以 ,在 对 待 小 概率 事件 时 ,最 具 实践 意义 的 做 法 是 ,不 断 搜集 


相关 信息 ,不 断 更 新 事件 发 生 的 概率 ,只 有 这 样 才 能 做 


74 神探 贝 叶 斯 : 嫌疑 人 X 的 献身 


HARER. 


1841 年 ,美国 作家 爱 伦 ' 坡 发 表 了 小 说 ( 莫 格 街 凶 杀 案 》, 这 部 小 说 被 世界 


公认 为 侦探 小 说 的 开山 之 作 , 从 那 以 后 ,侦探 小 说 常常 


成 为 欧美 畅销 书 的 代 名 


词 。 在 英国 , 阿 登 “柯南 道 尔 创作 的 《福尔摩斯 探 案 集 》 可 谓 无 人 不 知 , 阿 加 
莎 。 克里斯蒂 创作 的 《无 人 生还 兴 尼 罗 河 上 的 惨案 ) 等 作品 也 是 家 喻 户 晓 ,在 
美国 , 埃 勒 里 ' 奎 因 的 《希腊 棺材 之 谜 兴 X 的 悲剧 》 等 作品 都 是 经 典 之 作 。 除 
了 欧美 ,侦探 小 说 在 另 一 个 国家 也 渐渐 靳 露头 角 , 这 个 国家 就 是 我 们 的 近 


S— HA. 


1923 年 ,作家 江 户 川 乱 步 发 表 处 女 作 《两 分 钱 硬币 》% 从 此 拉 开 了 日 本 侦探 
小 说 的 序幕 , 江 户 川 乱 步 也 被 奉 为 日 本 侦探 小 说 的 鼻祖 。 在 日 本 , 侦探 小 说 被 


称 为 推理 小 说 ,这 是 因为 日 本 早期 的 侦探 作品 非常 看 可 


EE 严密 的 推理 过 程 ,这 类 


作品 也 被 归 为 “本 格 派 ”, 江 户 川 乱 步 正 是 “本 格 派 ”的 杰出 代表 。 第 二 次 世界 
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大 战 后 ,日 本 走 上 艰难 的 重建 之 路 ,推理 小 说 也 随 之 迎 来 了 一 次 转型 “社会 
派 "推理 小 说 出 现 了 ,代表 作家 是 松本 清 张 。“ 社 会 派 ?推理 小 说 不 再 局 限于 案 
情 推演 , 它 探 完 犯罪 的 社会 原因 ,以 此 揭示 社会 的 阴暗 面 ,折射 出 人 们 内 心 潜 
在 的 苦闷 和 了 矛盾 。“ 社 会 派 ?推理 小 说 在 日 本 经 久 不 衰 , 最 终 迎 来 了 它 的 集 大 
成 者 一 一 东野 圭 吾 。 相 信 读 者 们 都 看 过 或 听 过 东野 圭 吾 最 著名 的 作品 《白夜 
行 》 遗 憾 的 是 《白夜 行 ) 在 当年 并 未 获得 日 本 推理 界 的 最 高 奖项 “直木 奖 ”, 东 
野 圭 吾 并 未 放弃 ,笔耕 不 辍 ,终于 在 2006 年 摘 得 梦 寨 以 求 的 “直木 奖 ”, 助 他 获 
得 该 奖 的 是 他 的 另 一 部 代表 作 《 嫌 疑 人 X 的 献身 》。 

接 下 来 ,我 们 就 跟随 着 (嫌疑 人 X 的 献身 ) 的 情节 ,看 看 推理 小 说 中 的 神探 
是 如 何 应 用 贝 叶 斯 定理 的 思想 来 推演 案情 的 。 


案情 推演 


《嫌疑 人 X 的 献身 ) 是 一 个 多 人 物 视 角 的 推理 小 说 ,我 们 对 原著 做 一 次 改 
写 ,以 侦探 汤 川 学 的 视角 复述 这 个 故事 。 

汤 川 学 ,后 文 简称 汤 川 ,是 一 名 大 学 老师 ,因为 他 善于 逻辑 推理 ,因此 草 区 
警官 每 每 遇 到 难 办 的 案子 便 向 他 请 教 。 三 月 十 一 日 ,帝都 大 学 物理 学 科 第 十 
三 号 研究 室内 , 汤 川 正在 和 草 获 下 西洋 棋 。 草 获 忽 然 接 到 电话 ,有 突 发 案件 ， 
于 是 前 去 调查 。 几 天 后 , 草 获 带 着 疑惑 再 次 拜访 汤 川 ,并 向 汤 川 交 代 了 案情 。 

三 月 十 一 日 上 午 ,一 位 老人 在 旧 江 户 川 的 堤防 边 跑步 ,看 到 地 上 塑胶 布 的 
一 端 露出 看 似 人 脚 的 东西 ,他 遂 战 战 莫 奖 地 掀起 塑胶 布 , 竟 发 现 了 一 具 尸 体 ! 
警方 的 现场 取证 结果 如 下 : 尸身 全 裸 ,惨遭 毁容 ,手指 被 烧 过 ,指纹 遭 到 破坏 。 
死者 为 男性 ,脖子 上 有 勤 痕 ,此 外 没有 明显 外 伤 。 尸 体 旁 边 扔 下 了 一 辆 儿 新 的 
脚踏车 ,两 个 轮胎 都 被 人 放 了 气 , 车 上 有 登记 编号 ,车 把 上 留 有 指纹 。 在 距离 
户 体 大 约 一 百 公 尺 处 ,发 现 了 疑似 被 害 者 的 衣物 ,衣物 塞 在 一 斗 深 的 桶 子 中 ， 
部 分 遭 到 焚烧 ,包括 外 套 、 毛 衣 , 长 裤 , 袜 子 和 内 衣 。 

警方 对 现场 证 据 做 了 深入 调查 ,有 如 下 发 现 。 

D 死者 是 被 人 往 上 拉扯 勒 死 的 ,凶器 很 可 能 是 电线 ,比如 电热 器 常用 的 
那 种 空心 豚 花 绳 式 的 电线 。 

(2) 死亡 时 间 是 三 月 十 日 晚 六 点 到 十 点 。 
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(3) 尸体 旁 的 脚踏车 是 三 月 十 日 晚 在 堤防 附近 的 车 站 被 偷 的 ,脚踏车 上 
留 有 死者 的 指纹 。 

(4) DNA 鉴定 结果 显示 ,部 分 烧毁 的 衣物 的 确 是 死者 的 。 

为 了 确认 死者 身份 ,警方 在 全 城 搜集 失踪 者 信息 ,最 终 在 一 家 旅店 的 客房 
里 发 现 了 死者 的 毛发 和 指纹 ,店主 确认 该 住户 在 三 月 十 日 晚上 之 后 再 没 回 旅 
店 。 和 警方 因此 确认 死者 名 叫 富 坚 慎 二 。 和 警方 对 富 坚 慎 二 展开 调查 ,他 们 发 现 ， 
富 坚 曾 是 销售 进口 车 的 业务 员 , 后 因 挪 用 公款 被 公司 开除 ,后 来 富 坚 和 妻子 离 
了 婚 ,但 仍 一 直 对 前 妻 纠缠 不 放 。 和 警察 随即 登门 拜访 了 富 坚 的 前 妻 花 岗 靖子 。 
花 岗 靖子 有 一 双 * 大 大 的 黑 眼 珠 ”,“ 是 个 脸蛋 小 巧 的 女人 ”, 她 和 富 坚 离婚 已 五 
年 ,很 少 来 往 。 据 花 岗 靖子 说 ,三 月 十 日 晚上 ,她 和 女儿 六 点 半 出 门 去 看 电影 ， 
然后 在 同一 栋 大 楼 里 的 拉面 店 用 餐 , 接 着 又 去 KTV 唱歌 ,十 一 点 之 后 才 到 家 。 

案情 调查 至 此 ,凶杀 案 的 唯一 嫌疑 人 是 花 岗 靖子 ,下 面 我 们 用 贝 叶 斯 定理 
来 分 析 花 岗 靖子 作案 的 可 能 性 。 

我 们 先 来 分 析 案 发 地 点 。 尸 体 在 堤防 边 发 现 ,并 不 代表 案 发 地 点 就 是 堤 
防 边 ,因此 ,存在 两 种 可 能 结果 。 

Ar: 案 发 地 点 是 堤防 边 ; 

Ar: 凶手 杀人 后 运 尸 至 堤防 边 。 

在 未 引入 其 他 证 据 前 ,我 们 可 以 假定 这 两 种 情况 出 现 的 概率 各 为 50%。 

然后 我 们 引入 两 个 证 据 。 

Bi: 脚踏车 上 留 下 了 死者 的 指纹 ; 

Bo: 死者 的 手 被 磺 烂 ,指纹 被 破坏 。 

如 果 案 发 地 点 就 在 堤防 边 ,那么 死者 应 当 是 骑 着 脚踏车 来 到 堤防 边 ,而 后 
被 害 ,凶手 磺 烂 死者 的 手 是 为 了 破坏 指纹 ,而 后 可 能 因为 紧张 忘记 了 脚踏车 上 
留 有 死者 指纹 ,因此 P(B1B;|Ai) 大 约 为 80%; 如 果 凶 手 杀 人 后 运 己 至 堤防 
边 , 那 么 凶手 在 脚踏车 上 留 下 死者 的 指纹 , 却 又 为 了 销毁 死者 的 指纹 砸 烂 死者 的 
手 , 这 是 明显 矛盾 的 两 个 行为 ,除非 凶手 逻辑 混乱 或 精神 失常 ,因此 PCB, B: |A) 
KAW 5%. 

我 们 知道 , Ai 就 是 Az, Az BEAL A1, 因 此 ,利用 贝 叶 斯 定理 便 可 以 计算 
得 到 : 

P(A, | BıB:) =P(B,Bz | Ai) - P(Ai)/ P(B1B, | Ai) + P(A) + 
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P(BiB2 | Ai) . P(A1) 

=P(BiBz | Ai) + P(A1Y P(BiB2 | A1) + PCA) + 

P(B,Bz | Az) + P(A?) 

=94,1% 

P(A; | By Be) =P(B:B: | Az) + P(A2)/ P(B:B: | A2) + P(A) 4 


P(B,B, | Az) + P(A?) 
一 P(B,B, | Az) + P(AsY P(B1iB; | A2) . PAL) + 
P(B;Bz | Ay) © P(A1) 
=5.9% 
因此 ,我 们 几乎 可 以 断定 案 发 地 点 就 是 堤防 边 。 接 下 来 ,我 们 以 案 发 地 点 
在 堤防 边 为 前 提 条 件 , 计算 花 岗 靖子 是 凶手 的 概率 。 由 于 花 岗 靖子 是 唯一 的 
犯罪 嫌疑 人 ,所 以 假定 花 岗 靖子 是 凶手 的 概率 为 80% , 即 先 验 概率 PCA) = 
0. 8。 与 凶手 关系 最 大 的 线索 是 作案 手法 ,死者 脖子 上 的 勒 痕 显 示 , 死 者 是 被 
人 用 电线 之 类 的 东西 往 上 拉扯 勤 死 的 ,我 们 把 这 条 线索 记 为 事件 B. TE y 
子 身 高 160 厘米 ,是 个 身材 纤细 的 弱 女 子 , 死 者 身高 170 厘米 ,并 非 屏 弱 之 人 ， 
而 且 死 者 并 未 服用 任何 麻醉 类 药物 ,因此 ,假如 花 岗 靖子 是 凶手 ,这 样 的 作案 
手法 实在 难以 理解 ,P(B|A) 大 约 为 5%。 我 们 假定 P(B1A) 为 50%, 可 以 计 
算得 到 
P(A | B) =P(B| A) + P(A)/ P(B | A) + P(A) + PCB | A) + PA) 
=28.6% 
仅 是 这 一 个 线索 便 将 花 岗 靖 子 是 凶手 的 概率 降低 到 28. 6%。 和 警察 还 验证 
了 花 岗 靖子 母 女 的 电影 票 票 根 , 上 面 的 确 留 有 二 人 的 指纹 ,KTYV 的 服务 生 也 
在 当天 晚上 见 到 了 母 女 二 人 ,这 一 切 都 使 花 岗 靖 子 是 凶手 的 概率 不 断 降低 。 
对 此 ,警方 怀疑 花 岗 靖子 有 男性 共犯 , 案 发 过 程 可 能 是 , 花 岗 靖子 将 富 坚 引 到 
昌 防 边 , 然 后 由 男性 共犯 将 其 杀害 ,至 于 未 完全 烧毁 的 衣物 和 脚踏车 ,可 能 是 
二 人 急于 逃跑 导致 的 。 
在 交代 完 案情 后 , 草 玖 警官 提起 了 一 个 人 一 一 达 摩 石 神 。 石 神 住 在 花 岗 
靖子 隔壁 , 草 玲 警官 走访 花 岗 靖子 时 刚好 碰 到 石 神 , 便 向 他 了 解 花 岗 靖子 的 情 
况 。 汤 川 学 听 到 石 神 的 名 字 , 不 禁 回 忆 起 了 大 学 时 的 往事 。 汤 川 和 石 神 是 京 
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都 大 学 的 校友 , 汤 川 主攻 物理 学 , 石 神主 修 数学 ,他 们 俩 都 是 “学 霸 ”, 不 同 的 
是 , 汤 川 更 加 博学 , 石 神 则 沉迷 于 数学 世界 。 汤 川 对 石 神 在 数学 方面 的 造 齐 十 
分 欣赏 ,虽然 与 石 神 的 交流 不 算 多 ,但 他 依然 能 感受 到 二 人 之 间 是 彼此 理解 
的 。 毕 业 后 , 汤 川 选择 了 留 校 ,与 石 神 一 别 就 是 二 十 多 年 。 此 番 听 到 这 位 “ 知 
音 ” 的 消息 ,有 些 欣 喜 , 当晚 便 登 门 拜 访 , 没 想到 汤 川 却 在 会 面 期 间 觉察 到 了 石 
神 对 靖子 的 爱慕 ,他 由 此 开始 怀疑 石 神 。 出 于 对 老 友 的 理解 ,他 决定 独自 调查 
此 案 ,不 为 警方 提供 线索 。 最 终 ,他 识破 了 石 神 故 布 的 疑 阵 ,使 石 神 无 奈 之 下 
向 警方 自首 。 
石 神 真 的 是 凶手 吗 ? 他 是 如 何故 布 疑 阵 的 ? 
要 知道 真相 ,就 去 读 读 原著 吧 ,相信 你 会 受 上 这 部 经 典 的 推理 小 说 ! 


75 朴素 贝 叶 斯 : 智能 分 类 


“你 好 ,我 叫 大 白 , 你 的 私人 健康 助理 。” 

电影 ( 超 能 陆 战 队 ) 塑 造 了 “史上 最 萌 机 器 人 ”一 一 大 白 , 相 信和 看 过 电影 的 
朋友 都 想 拥 有 一 个 像 大 白 一 样 可 爱 的 “私人 健康 助理 "。 所 谓 私 人 健康 助理 ， 
是 为 个 人 进行 健康 服务 的 智能 机 器 人 ,比如 你 突然 发 烧 了 ,大 白 就 会 对 你 进行 
全 身 健康 扫描 ,测试 你 的 体温 .白细胞 数量 等 指标 , 它 还 会 询问 你 的 感受 ,然后 
对 病情 做 出 判断 一 一 肠炎 (或 病毒 性 感冒 ) ,给 你 对 症 下 药 , 帮助 你 尽快 恢复 健 
康 。 我 们 不 禁 会 好 奇 ,大 白 怎么 判断 你 得 的 是 肠炎 还 是 病毒 性 感冒 呢 ” 本 节 
我 们 就 来 聊 一 聊 大 白 看 病 的 秘诀 一 一 朴素 贝 叶 斯 分 类 。 

朴素 贝 叶 斯 分 类 是 机 器 学 习 的 一 种 方法 ,常用 来 解决 分 类 问题 。 它 是 概 
率 论 在 机 器 学 习 领 域 最 重要 的 应 用 之 一 ,其 核心 思想 正 是 贝 叶 斯 定理 ,也 正 是 
由 于 传承 于 形式 简单 的 贝 叶 斯 定理 ,我 们 才 称 为 “朴素 " 贝 叶 斯 分 类 。 朴 素 贝 
叶 斯 分 类 常常 应 用 于 医学 诊断 ,下 面 是 一 个 典型 案例 。 


疾病 诊断 
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来 , 春 夏 之 交 , 流 感 盛行 ,因为 感冒 而 就 医 的 人 也 渐渐 多 了 起 来 。 从 症状 来 看 ， 
杨 加 过 敏和 感冒 十 分 相似 ,医生 怎样 判断 病人 是 过 敏 还 是 感冒 呢 ? 

表 7-4 是 某 医 院 门诊 近期 的 就 诊 情况 记录 ,近期 该 医院 门诊 共 接待 了 20 
位 病人 ,症状 有 “ 打 喷 吨 ” 和 “咳嗽 ?两 种 ,男女 病人 数量 相同 ,所 患 疾病 有 ”" 感 
冒 ” 和 ”过 敏 ” 两 种 。 就 在 这 时 ,又 来 了 一 位 病人 ,性 别 女 ,证 状 是 打 喷 吨 , 她 患 
感冒 的 概率 是 多 少 ? 


表 7-4 某 医院 门诊 就 诊 记录 


病人 编号 症状 性 别 疾病 
1 FT MEME 男 感冒 
2 FT MEME 男 感冒 
3 FT MEME 男 感冒 
4 FT MEME 男 感冒 
5 FT MEME 男 过 敏 
6 FT MEME 男 过 敏 
a 咳嗽 男 感冒 
8 咳嗽 男 感冒 
9 咳嗽 男 感冒 
10 咳嗽 男 过 敏 
11 FT ODE ME 女 感冒 
12 FT MEME x 过 敏 
13 FT MEME x 过 敏 
14 FT MEME x 过 敏 
15 FT PRE 女 过 敏 
16 咳嗽 女 感冒 
17 咳嗽 女 感冒 
18 咳嗽 女 感冒 
19 咳嗽 女 过 敏 
20 咳嗽 女 i BB 


如 果 不 使 用 贝 叶 斯 定理 ,我 们 可 能 会 这 样 计 算 : 表 中 1 ~ 15 号 病人 与 新 
来 的 病人 症状 相同 ,这 5 位 病人 中 有 1 位 患 有 感冒 .因此 新 来 的 病人 患 感冒 的 
概率 是 20% 。 

上 述 方法 错 在 把 * 打 喷 吨 ”和 ”性 别 女 ”作为 一 个 条 件 来 看 待 ,它们 本 是 两 
个 彼此 独立 的 条 件 ,会 各 自 独 立地 影响 病人 患 感冒 的 概率 ,因此 我 们 应 当 使 用 
贝 叶 斯 定理 计算 病人 患 感冒 的 概率 。 
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由 贝 叶 斯 定理 可 得 : 
PORRE | EIKE =P OER x HITTE | 感冒 ) * PORR) + 
POESI Z AAT OEE) 
“MEDI Le” FU“ FT WEEE” AY A A PE EHE » ,因此 : 
P( 感 冒 | EAEI =PCHE SI | RED + P( 打 喷 呈 | 感冒 ) X 
已 (感冒 X CPCB) + PETHE) J 
由 表 中 数据 可 知 : 
P( 感 冒 )=1Y 20; 
P( 性 别 女 )=10 20; 
POTH) =1V 20; 
P( 打 喷 吨 | 感冒 ) 一 5 11; 
P( 性 别 女 | 感冒 )==4/ 11。 
将 上 面 的 数值 代入 贝 叶 斯 定理 的 表达 式 , 可 以 计算 得 到 : 
PORE | 性 别 女 且 打 喷 吨 ) = 33% 
P( 过 敏 | MA BATU = 67% 
这 便 是 使 用 朴素 贝 叶 斯 分 类 得 到 的 诊断 结果 。 
在 实际 应 用 中 ,医生 掌握 的 病人 信息 会 更 多 ,医院 的 就 诊 记 录 也 更 多 ,但 


是 朴素 贝 叶 斯 分 类 方法 是 不 变 的 。 


垃圾 邮件 识别 


垃圾 邮件 也 越 来 越 猩 猴 。 只 要 你 的 E-mail 暴露 于 互联 网 上 (比如 用 于 账号 注 


贝 叶 斯 分 类 器 的 另 一 个 典型 应 用 是 垃圾 邮件 识别 。 随 着 E-mail 的 普及 ， 


HD , 便 会 迅速 成 为 垃圾 邮件 的 重 灾 区 。 垃 圾 邮件 往往 精 于 包装 , 配 有 令 人 诱 
惑 的 图 片 ` 词 汇 或 附件 ,其 中 隐藏 着 很 大 的 风险 ,比如 盗号 木马 和 网 上 诈骗 。 
E-mail 用 户 厌恶 垃圾 邮件 ,但 手动 清理 费时 费力 ,还 容易 误 点 击 , 因 此 E-mail 
服务 商 很 早 就 开始 研究 垃圾 邮件 的 自动 识别 方法 ,最 终 他 们 选择 贝 叶 斯 分 类 


器 来 识别 垃圾 邮件 。 


K 7-5 是 一 组 垃圾 邮件 识别 的 基础 数据 ,20 封 邮件 中 有 10 封 是 垃圾 邮 


件 ,10 封 是 普通 邮件 ,用 于 判别 的 特征 有 三 项 一 一 链接 .图 片 和 附件 。 第 21 封 
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邮件 没有 链接 ,但 有 图 片 和 附件 , 它 是 垃圾 邮件 的 概率 为 多 少 ? 


表 7-5 垃圾 邮件 识别 的 基础 数据 


邮件 编号 链接 图 片 附件 类 别 
1 有 有 有 应 圾 邮件 
2 有 有 有 垃圾 邮件 
3 有 有 没有 Hi SBR nS 
4 有 有 没有 i Pe ts 4 
5 有 没有 没有 六 圾 邮件 
6 有 没有 没有 六 圾 邮件 
7 有 没有 没有 垃圾 邮件 
8 没有 有 没有 立 圾 邮件 
9 没有 没有 有 Hi BBR nS 
0 没有 没有 没有 六 圾 邮件 
1 有 有 有 普通 邮件 
2 有 没有 没有 普通 邮件 
3 有 没有 没有 普通 邮件 
4 没有 有 有 普通 邮件 
5 没有 有 没有 普通 邮件 
6 没有 有 没有 普通 邮件 
T 没有 没有 有 普通 邮件 
8 没有 没有 没有 普通 邮件 
9 没有 没有 没有 普通 邮件 
20 没有 没有 没有 普通 邮件 


与 疾病 诊断 不 同 , 本 例 有 三 个 特征 ,这 不 会 影响 贝 叶 斯 定理 的 使 用 ,只 是 
计算 方式 上 略 有 不 同 。 根 据 贝 叶 斯 定理 ,可 知 : 

P( 垃 圾 邮件 | 无 链接 ,有 图 ,有 附件 ) 一 已 (无 链接 ,有 图 ,有 附件 | 垃圾 邮件 ) x 
已 (垃圾 邮件 X P( 无 链接 ,有 图 ,有 附件 ) 
P( 普 通 邮件 | 无 链接 ,有 图 ,有 附件 ) 一 忆 (无 链接 ,有 图 ,有 附件 | 普通 邮件 ) x 
POSIBLE Y P( 无 链接 ,有 图 ,有 附件 ) 


为 我 们 已 知 : 

P( 垃 圾 邮件 | 无 链接 ,有 图 ,有 附件 ) 十 P( 普 通 邮 件 | 无 链接 ,有 图 ,有 附件 ) = 1 
此 我 们 只 需要 计算 二 者 的 比值 ,就 可 以 计算 出 二 者 的 数值 。 

先 计 算 如 下 概率 : 


Pi = P( 垃 圾 邮件 ) = y 10 
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P: = P( 普 通 邮 件 ) = y 10 
Ps = P( 无 链接 | 垃圾 邮件 ) = 3/ 10 
P, = P( 无 链接 | 普通 邮件 ) = 7/ 10 
Ps = PAR | 垃圾 邮件 ) = 7 10 
P: = PAR | 普通 邮件 ) = 4 10 
P: = PAWE | 垃圾 邮件 ) = 3/ 10 
Ps = P( 有 附件 | 普通 邮件 ) = 3/ 10 
再 计算 所 求 两 个 概率 的 比值 ; 
P( 垃 圾 邮件 | 无 链接 ,有 图 ,有 附件 P( 普 通 邮件 | 无 链接 ,有 图 ,有 附件 ) 
三 已 (无 链接 ,有 图 ,有 附件 | 垃圾 邮件 )' 已 (垃圾 邮件 ) + 
已 (无 链接 ,有 图 ,有 附件 | 普通 邮件 ). PC 普通 邮件 ) 
一 P,.P:,.P;.PV(P:. Ps. Pe * Ps) 
=1Y 28 
此 ,P( 垃 圾 邮件 | 无 链接 ,有 图 ,有 附件 )=15/ 43=35 % 
也 就 是 说 ,一 封 无 链接 、 有 图 、 有 附件 的 邮件 是 垃圾 邮件 的 概率 是 35%, 是 
普通 邮件 的 概率 是 65%。 
最 后 需要 说 明 的 是 ,朴素 贝 叶 斯 分 类 器 包含 一 个 关键 假设 : 各 个 特征 互 
相 独 立 。 这 个 假设 在 大 多 数 实际 问题 中 都 是 成 立 的 ,但 是 我 们 不 能 因此 忽略 
这 个 假设 。 
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导语 : 2013 年 8 月 ,谷歌 公司 提出 了 一 个 票房 预测 模型 ,该 模型 
仅 以 单词 搜索 量 为 依据 , 便 可 以 提前 一 个 月 预测 电影 的 首 周 票房 , 准 
确 度 高 达 94%。 更 令 人 惊讶 的 是 ,这 是 一 个 简单 的 线性 回归 模型 。 
谷歌 是 如 何 做 到 的 ? 


81 预测 未 来 : 以 数据 之 名 


凯 文 * 凯利 (Kevin Kelly, 绰 号 KK) 是 个 难以 定位 的 人 物 , 他 曾 是 科技 杂 
志 Wired 的 主编 ,他 是 周游 世界 的 游侠 ,他 还 是 一 位 科技 哲学 家 , 曾 撰写 多 部 
科技 哲学 著作 。KK 的 第 一 部 “ 神 作 ”是 1994 年 出 版 的 (失控 》, 这 部 书 不 仅 揭 
示 了 网 络 文化 的 内 涵 , 甚 至 预言 了 网 络 文化 的 兴起 。 当 时 这 部 书 读 起 来 像 一 
部 长 篇 科幻 小 说 ,但 互联 网 摧 枯 拉 朽 般 地 发 展 印证 了 书 中 所 写 。 从 这 一 点 来 
看 ,KK 更 像 是 一 个 科技 预言 家 ,他 早 于 世人 看 清 了 网 络 文化 的 本 质 , 预言 了 网 
络 文化 的 盛行 。 

在 凯 文 * 凯利 的 新 书 ( 必 然 ) 中 有 这 样 一 段 描述 : 
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2002 年 左右 ,我 参加 了 一 家 小 公司 举办 的 聚会 ,其 间 , 我 问 这 家 公司 的 
创始 人 拉 里 。 佩 奇 :“ 拉 里 ,我 摘 不 懂 , 已 经 有 这 么 多 家 搜索 公司 了 ,你 们 为 
什么 还 要 做 免费 网 络 搜索 ?? 拉 里 。 佩 奇 回 答 说 :“ 哦 ,我 们 其 实 是 在 做 人 工 
智能 。” 


DL + 佩 齐 正 是 谷歌 公司 的 创始 人 。 谷 歌 公司 在 新 干 年 伊始 就 瞄准 了 人 
工 智 能 技术 ,这 同样 是 一 次 大 胆 的 预言 ,事实 证 明 , 这 个 预言 应 验 了 。 在 过 去 
的 十 几 年 里 ,谷歌 收购 了 多 达 13 家 人 工 智能 和 机 器 人 公司 ,制作 出 了 安 卓 手 
机 系统 .谷歌 地 图 .谷歌 眼镜 .无 人 轰 驶 汽车 .无 人 机 等 多 款 智能 产品 。 在 谷歌 
看 来 ,人 工 智能 并 非 是 机 器 人 代替 人 类 来 工作 ,人 工 智 能 要 做 到 人 类 做 不 到 的 
事 一 一 预测 未 来 。 


谷歌 流感 趋势 


2008 年 年 初 ,谷歌 推出 了 “谷歌 流感 趋势 ”(Google Flu Trends, GFT, p 
JHE https:// www. google. org flutrends) ,这 个 工具 根据 谷歌 搜索 数据 的 汇总 ， 
近乎 实时 地 对 全 球 当 前 的 流感 疫情 进行 估 测 。 当 时 ,大 数据 ?的 概念 尚未 普 
及 ,数据 预测 技术 还 处 于 萌芽 期 ,GFT 并 未 引起 广泛 关注 。2009 年 ,谷歌 使 用 
GFT 不 仅 成 功 预测 到 HINI 在 全 美 范围 的 传播 ,而 且 对 病毒 爆发 时 间 和 地 点 
判断 极其 准确 ,媒体 纷纷 报道 了 这 次 令 人 称奇 的 预测 ,GFT 引起 了 全 世界 的 
关注 。 与 习惯 性 滞后 的 官方 数据 相 比 ,谷歌 成 为 一 个 更 有 效 、 更 及 时 的 预测 
指标 。 

其 实 , 谷 歌 的 工程 师 们 很 早 就 发 现 : 在 流感 季节 ,与 流感 有 关 的 搜索 量 会 
明显 增多 ;到 了 过 敏 季节 ,与 过 敏 有 关 的 搜索 量 会 显著 上 升 ;而 到 了 夏季 ,与 晒 
伤 有 关 的 搜索 量 又 会 大 幅 增 加 。 我 们 知道 ,没有 任何 患 病症 状 的 人 是 不 会 去 
搜索 疾病 相关 的 关键 词 的 ,因此 ,疾病 相关 的 关键 词 搜索 量 很 可 能 有 助 于 了 解 
疾病 的 传播 和 分 布 情况 。2009 年 2 月 的 Nature 杂志 刊 发 了 一 篇 题 为 
Detecting influenza epidemics using search engine query data 的 论文 ,文中 
MAT GFT 的 原理 。 谷 歌 以 相关 性 为 衡量 指标 ,找到 了 45 个 与 流感 就 诊 密 
切 相关 的 搜索 关键 词 .然后 以 这 45 个 关键 词 的 搜索 量 为 参考 值 ,估算 流感 症 
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状 的 就 诊 比 例 。 图 8-1 是 预测 结果 与 实际 数据 的 对 比 图 ,超前 两 周 的 
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1 线 表 


示 预 测 结果 随时 间 的 变化 ,滞后 两 周 的 曲线 表示 实际 就 诊 比例 随时 间 的 变化 ， 
两 条 曲线 一 直 十 分 接近 ,说 明 预 测 得 非常 准确 。 
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截至 2008 年 5 月 12 日 


8-1 GET 的 预测 结果 与 实际 数据 的 对 比 


然而 ,GFT 在 受到 世界 瞩目 之 后 , 却 遭 遇 了 篮 炊 的 “ 见 光 死 ”>。2013 年 1 
月 ,季节 性 流感 再 次 在 美国 爆发 ,这 一 次 GFT 遭遇 了 “滑铁卢 ”, 它 预测 的 就 诊 
数据 比 实际 数据 高 出 两 倍 之 多 。 媒 体 报道 了 GFT 的 错误 预测 ,并 且 指 出 ,在 
2013 年 之 前 的 很 长 一 段 时 间 内 ,GFT 都 高 估 了 流感 疫情 。 从 2011 年 8 月 一 
2013 年 9 月 的 108 周 中 ,GFT 高 估 流 感 疫情 长 达 100 周 。 这 些 错 误 不 是 随机 
分 布 的 ,说 明 GFT 的 确 出 现 了 错误 。 

从 精准 的 预测 ,到 巨大 的 错误 ,GFT RERS ARE. RIRA 
的 是 ,GFT 是 一 次 伟大 的 尝试 .是 数据 预测 技术 的 一 次 零 的 突破 ,从 此 数据 预 
测 渐 渐 成 为 科技 领域 的 热门 课题 。 


世界 是 随机 的 一 大 数据 时 代 的 概率 统计 学 


预测 世界 杯 


随 着 大 数据 概念 的 兴起 ,众多 科技 巨头 开始 钻研 数据 预测 技术 。 在 体育 、 
娱乐 等 领域 做 预测 格外 受到 青睐 ,一 方面 可 以 检验 算法 , 另 一 方面 还 可 以 借助 
广泛 的 球迷 ,影迷 基础 做 一 次 免费 广告 。 于 是 ,2014 年 巴西 世界 杯 成 为 科技 巨 
头 展示 数据 预测 技术 的 舞台 。 

这 一 次 不 再 是 谷歌 的 独角戏 ,微软 .高盛 和 中 国 的 百度 与 谷歌 一 同 玩 起 了 
“大 数据 预测 世界 杯 ” 的 游戏 。2014 E 6 月 12 日 ,世界 杯 小 组 赛 正式 开始 , 百 
度 、 微 软 和 高 盛 对 48 场 小 组 赛 进行 了 预测 ,百度 以 58% 的 准确 率领 跑 , 微 软 和 
高 盛 分 别 以 56.25% 和 37. 5% 的 准确 率 排 在 第 二 、 第 三 位 。 此 后 ,四 家 公司 全 
部 参与 了 淘汰 赛 阶段 的 预测 ,百度 和 微软 预测 正确 了 全 部 16 场 淘汰 赛 的 胜 负 
结果 ,以 100% 的 预测 准确 率 震惊 了 全 世界 ! 谷歌 错误 地 预测 了 法 国 队 会 战胜 
德国 队 ,遗憾 未 能 实现 100% 的 预测 准确 率 。 

世界 杯 后 ,媒体 披露 了 四 家 公司 各 自 的 预测 方法 。 百 度 以 过 去 五 年 国际 
赛事 数据 和 400 多 家 博彩 公司 的 赔 率 为 参考 数据 ,计算 球 队 实力 、 近 期 状态 、 
主场 效应 、 博 彩 数据 和 大 赛 能 力 五 项 指标 ,采用 多 源 数 据 融合 技术 进行 预测 ; 
谷歌 则 只 以 Opta Sports 网 站 的 比赛 数据 为 参考 数据 ,计算 各 球 队 和 球员 的 技 
战术 能 力 指标 ,然后 采用 计算 机 排序 算法 进行 预测 。 预 测 错误 之 后 ,谷歌 官方 
博客 称 ,德国 队 和 法 国 队 的 比赛 预测 失败 的 最 重要 原因 是 ,赛事 数据 量 过 大 以 
及 球员 跑 动 射门 等 指标 的 错误 计算 。 

仅 靠 一 次 世界 杯 的 预测 结果 ,并 不 能 说 明 哪 一 种 数据 预测 方法 更 有 效 。 
时 至 今日 ,数据 预测 仍然 是 一 门 新 兴 技术 ,概率 统计 、 机 器 学 习 、 深 度 学 习 甚 至 
数据 融合 都 可 以 应 用 到 数据 预测 中 。 接 下 来 ,我 们 就 来 学 习 概率 统计 中 的 数 
据 预 测 技术 一 一 回归 分 析 。 


82 线性 回归 : 奇 准 的 票房 预测 


2013 年 8 月 ,谷歌 公司 把 大 数据 技术 成 功 应 用 到 电影 票房 的 预测 上 ,并 所 
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文公 布 了 研究 成 果 Quantifying Movie Magic with Google Search, ZiR 


称 ,谷歌 的 预测 模型 可 以 提前 一 个 月 预测 电影 上 映 的 首 周 票房 ,准确 度 高 


达 


94%。 令 人 吃惊 的 是 ,谷歌 并 没有 搜集 各 种 电影 相关 的 数据 来 提高 预测 准确 
度 , 而 是 仅仅 使 用 了 他 们 自 有 的 数据 一 一 单词 搜索 量 , 而 且 ,谷歌 的 预测 模型 


居然 是 概率 统计 中 最 简单 的 线性 回归 模型 。 


据 谷 歌 统计 ,从 2011—2012 年 ,谷歌 的 电影 相关 搜索 量 增长 了 56%, 正 是 


由 于 人 们 越 来 越 多 地 使 用 谷歌 搜索 电影 相关 信息 , 才 使 得 谷歌 萌发 了 票房 
测 的 想法 。 谷 歌 的 工程 师 们 画 出 了 2012 年 电影 相关 的 搜索 总 量 和 票房 总 


预 
收 


入 的 曲线 图 ,如 图 8-2 所 示 , 实 线 表示 电影 相关 关键 词 的 搜索 量 随时 间 的 变化 
趋势 ,虚线 表示 电影 票房 随时 间 的 变化 趋势 ,两 条 曲线 的 起 伏 变 化 十 分 相似 。 


-一 -电影 票房 总 量 
一 一 电影 机 关 词 搜索 量 


7 
月 份 
图 8-2 2012 年 电影 票房 和 电影 相关 词 搜索 量 随时 间 的 变化 曲线 
如 此 相似 的 两 条 曲线 激 起 了 谷歌 工程 师 的 好 奇 心 ,这 似乎 预示 着 两 条 
线 存在 很 强 的 相关 性 。 谷 歌 的 工程 师 们 将 电影 搜索 进而 分 为 两 类 一 一 电影 
搜索 和 电影 相关 词 搜索 ,并 画 出 两 类 搜索 量 和 票房 收入 的 关系 。 如 图 8-3 
示 *, 虚 线 仍然 表示 电影 票房 随时 间 的 变化 趋势 ,起 伏 较 大 的 实 线 表示 电影 名 
索 量 随时 间 的 变化 趋势 , 较 平坦 的 实 线 表示 电影 相关 词 的 搜索 量 随时 间 的 变 
化 趋势 。 图 8-3 中 曲线 显示 ,电影 ee 多 相关 词 的 搜索 量 更 大 ,但 在 
影 上 映 的 淡季 (图 8-3 中 阴影 部 分 ) ,电影 相关 词 的 搜索 量 反 超 了 电影 名 的 
索 量 ,这 是 因为 那 时 没有 好 看 的 电影 We 好 莱 坞 电影 ” 


1 


名 
所 
搜 
电 
搜 


aa 


世界 是 随机 的 一 大 数据 时 代 的 概率 统计 学 


夫 片 ”之 类 的 词汇 。 两 类 关键 词 搜 索 量 的 变化 趋势 与 票房 变化 趋势 仍然 十 分 
相似 。 

--- 电影 票房 总 量 

一 一 电影 相关 词 搜索 量 

一 一 电影 名 搜索 量 


8-3 2012 年 电影 票房 和 两 类 关键 词 搜索 量 随 时 间 的 变化 曲线 


前 面 的 研究 似乎 说 明了 搜索 量 和 票房 之 间 强 烈 的 相关 关系 ,所 以 ,谷歌 要 
再 进一步 : 提前 一 周 预测 一 部 电影 的 票房 。 谷 歌 选取 了 2012 年 上 映 的 99 部 
电影 , 画 出 了 搜索 量 和 票房 的 关系 图 ,并 试图 构建 一 个 线性 模型 ,可 是 预测 准 
确 度 只 有 70%, 如 图 8-4 所 示 。 为 了 提高 预测 准确 度 , 谷 歌 需要 搜集 更 多 的 数 
据 , 经 过 反复 的 试验 ,它们 选 定 了 放映 前 一 周 的 搜索 量 、 广 告 点 击 量 、 上 映 影 院 
数量 和 同系 列 电影 前 几 部 的 票房 表现 四 类 指标 ,重新 构建 线性 模型 ,将 预测 准 
确 率 一 举 提高 到 了 92% 。 

可 惜 的 是 ,提前 一 周 预测 票房 对 电影 的 营销 几乎 没有 帮助 ,因为 在 电影 
映 前 一 周 ,营销 策略 几乎 无 法 更 改 ,即使 更 改 , 效 果 也 来 不 及 体现 。 因 此 ,谷歌 
需要 挑战 更 高 的 难度 一 一 提前 一 个 月 预测 。 

在 电影 上 映 前 一 个 月 ,电影 的 搜索 量 还 不 够 多 ,难以 用 来 预测 ,谷歌 挖掘 
出 了 另 一 个 更 有 说 服 力 的 指标 一 电影 预告 片 的 搜索 量 。 现 在 ,几乎 每 部 电 
影 都 会 在 放映 前 投放 预告 片 , 观 众 也 喜欢 在 影片 上 映 前 搜索 预告 片 来 观看 ， 
此 ,谷歌 将 预告 片 的 搜索 量 作 为 票房 预测 的 一 个 指标 。 除 此 之 外 ,谷歌 还 选择 
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8-4 99 部 电影 的 票房 和 搜索 量 的 线性 回归 模型 


了 以 同系 列 电影 前 几 部 的 票房 和 档期 的 旺季 淡季 特征 作为 参考 指标 ,使 用 这 
些 指标 构建 的 线性 模型 最 终 实现 了 准确 率 高 达 94% 的 预测 。 


线性 回归 


回归 分 析 是 一 种 统计 分 析 方 法 ,用 于 研究 多 个 统计 量 之 间 的 关系 ,并 利用 
关系 进行 预测 。 线 性 回归 模型 是 最 简单 的 回归 分 析 模 型 ,下 面 我 们 尝试 复 盘 
谷歌 的 分 析 过 程 ,应 用 线性 回归 来 预测 票房 。 
图 8-5 是 计算 机 模拟 生成 的 500 个 数据 点 ,每 个 点 表示 一 部 电影 , 横 坐 标 
是 预告 片 搜索 量 , 纵 坐标 是 票房 。 图 8-5 称 为 散 点 图 ,是 统计 分 析 中 最 简单 、 
最 常用 的 图 ,用 于 对 数据 的 规律 做 初步 观察 。 观 察 图 8-5 可 以 发 现 , 这 些 数据 
点 大 多 分 布 在 一 条 直线 附近 .这 条 直线 代表 了 这 些 数据 的 分 布 规律 ,线性 回归 
要 做 的 就 是 根据 散 点 图 找到 这 条 直线 ,这 一 过 程 也 称 为 线性 拟 合 。 
设 拟 合 直线 的 方程 是 > 一 az 十 2,z 表示 预告 片 搜索 量 ,y 表示 首 周 票房 。 
线性 回归 的 目标 是 找到 最 能 体现 数据 特征 的 直线 ,也 就 是 说 ,这 条 直线 需要 尽 
可 能 地 “接近 ”所 有 数据 。 衡 量 多 个 点 和 一 条 直线 之 间 的 “接近 程度 ”, 最 常 
的 指标 是 误差 平方 和 。 图 8-6 是 误差 平方 和 的 一 个 示意 图 ,基础 数据 包含 4 个 
点 (图 中 的 空心 圆圈 ) ,这 四 个 点 的 XX 坐标 分 别 对 应 拟 合 直线 上 的 四 个 了 坐 
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首 周 票房 (万 美元 ) 
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85 ” 首 周 票房 和 预告 片 搜索 量 的 散 点 图 
标 ,图 中 四 条 虚线 的 长 度 的 平方 和 就 是 误差 平方 和 , 使 误差 平方 和 最 小 的 那 条 
直线 就 是 最 佳 拟 合 直线 ,这 种 求解 方法 也 称 为 最 小 二 乘 回归 法 。 

» 


y=ax +b 


“4 


图 8-6 误差 平方 和 示意 图 


当 误 差 平方 和 达到 最 小 值 时 ,可 以 计算 出 a 和 2 的 值 为 
X X-X) Y-Y) 
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至 此 便 计 算出 了 最 佳 拟 合 直线 的 表达 式 。 

在 处 理 线性 回归 问题 时 ,我 们 可 以 把 数据 代入 公式 中 进行 计算 ,也 可 以 使 
用 统计 软件 ,如 Excel、R、SPSS 等 常用 统计 软件 都 有 线性 回归 函数 ,我们 只 需 
要 做 少量 的 操作 或 编码 就 可 以 计算 出 线性 回归 的 结果 。 

经 计算 ,票房 和 搜索 量 的 线性 回归 直线 方程 是 ， 

yy 一 3.5z 十 13.6 

这 条 直线 代表 了 票房 和 搜索 量 之 间 的 关系 ,如 图 8-7 所 示 。 我 们 可 以 使 
用 这 条 直线 来 预测 票房 ,比如 , 某 部 即将 上 映 的 影片 ,预告 片 搜 索 量 是 12 万 
次 , 即 xz==12, 根 据 直线 方程 可 以 计算 出 y==55.6, 因 此 我 们 预测 这 部 影片 的 首 
周 票房 是 55. 6 万 美元 。 


y=3.5x+13.6 
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8-7 ”线性 回归 结果 


除了 直线 方程 ,我 们 还 可 以 计算 另 一 个 量化 指标 一 一 相关 系数 。 相 关系 
数 可 以 帮助 我 们 判断 两 个 变量 的 线性 相关 关系 。 此 前 ,我 们 观察 散 点 图 ,已 经 
发 现 票房 和 搜索 量 之 间 近 似 存在 线性 相关 关系 ,这 只 是 感性 判断 ,相关 系数 是 
对 线性 相关 关系 的 理性 判断 。 

相关 系数 ~ 的 计算 公式 为 
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r=aX.S,/S, 
式 中 ,a 是 直线 方程 中 的 a,S; 表 示 X 的 标准 差 ,S, 表 示 Y 的 标准 差 。 如 图 8-8 
所 示 ,r 可 以 是 一 1~1 的 任意 数值 ,其 中 最 特别 的 三 个 数值 是 一 1、1 和 0, 含 义 
如 下 : 
r 二 一 1 表示 y 和 x 存在 负 相 关 关系 , 即 a 是 负数 ; 


r=1 表示 y 和 x 存在 正 相关 关系 , 即 a 是 正 数 ; 
7 一 0 表示 y 和 xz 不 存在 任何 线性 相关 关系 , 即 < 一 0, 不 存在 拟 合 直线 。 
y yy y 
[0] 
: © 6 o ° X ° 
95 o ö fe} 5° 
o 7 CEA o S 
r=l ¥ r=0 ¥ rl ¥ 


88 ”线性 相关 系数 r 的 示意 图 


在 实际 问题 中 ,r 的 值 大 多 不 会 是 一 1、1 或 0, 但 我 们 可 以 借助 它们 的 含义 
来 判断 线性 相关 关系 。 比 如 , 当 7r 二 0.9 时 ,我 们 认为 7 的 值 接近 1,y 和 x 存 
在 近似 的 正 相关 关系 ; 当 一 一 0.9 时 ,我 们 认为 r 的 值 接 近 一 1,y 和 x 存在 近 
似 的 负 相关 关系 ; 当 r 一 0.05 时 ,我 们 认为 的 值 接近 0,y 和 x 几乎 不 存在 线 
性 相关 关系 。 

至 此 ,我 们 计算 出 了 线性 回归 方程 和 线性 相关 系数 ,这 只 是 线性 回归 分 析 
的 第 一 步 。 接 下 来 我 们 还 要 对 线性 回归 的 结果 进行 评估 和 改进 。 
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拟 合 优 度 


谷歌 曾 在 电影 票房 预测 模型 中 提 到 , 它 的 预测 可 以 达到 94% 的 准确 率 ,如 
8-9 所 示 。 这 里 提 到 的 “94% 准 确 率 ” 很 容易 被 误解 为 ,平均 100 部 影片 有 


PR 


94 部 能 预测 了 


94% 代 表 的 是 线性 回归 模型 的 拟 合 优 度 。 


225) @ 实际 值 
2001 ”预测 值 s 
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E 确 ,或 者 预测 结果 与 实际 票房 相差 6%。 这 两 种 理解 都 不 对 。 


R=94% 


2 40 60 80 100 
关键 词 搜索 量 ( 千 次 ) 


120 140 160 


8-9 ”谷歌 票房 预测 模型 可 达到 94% 的 准确 率 


拟 合 优 度 , 亦 称 决定 系数 、 判 定 系数 ,是 用 于 评价 线性 回归 模型 有 效 性 的 
指标 , 记 为 R? 。 拟 合 优 度 的 取 值 在 0 一 1, 越 接近 1 ,模型 越 有 效 , 越 接近 0, 模 
型 越 无 效 。 拟 合 优 度 的 计算 公式 为 
R? = SSR/ SST = 1— SSE/ SST 

其 中 ,SST(Sum of Squares for Total. SST) # as BOF Y All. SSR(Sum of 
Squares for Regression. SSR ) 表示 回归 平方 和 ,SSE(Sum of Squares for 
Error,SSE) 表 示 误 差 平 方 和 ,三 者 之 间 的 关系 是 SST=SSR+ SSE, = HIV it 
算 公 式 为 


SST = >) G.— 9)? 


SSR = >) Gn — 3” 


SSE = 5) (in — yn)? 


其 中 ,y, 表 示 第 nn 个 样本 ,3 表示 第 n 个 样本 的 预测 值 ,y 表示 样本 均值 。 


将 上 一 节 的 基础 数据 做 线性 回 
线 y 一 3. 5z 十 13. 6 对 应 的 拟 合 优 度 。 


归 , 可 以 得 到 R?==61.4%, 这 就 是 回归 直 


在 上 一 节 中 ,我 们 曾 提 到 过 误差 平方 和 SSE, 根 据 误 差 平方 和 的 定义 , 它 


可 以 上 


来 衡量 拟 合 效果 ,为 什么 不 用 SSE 而 要 用 R? We? 因为 SSE 不 具备 可 
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比 性 ,R 具备 可 比 性 。SSE 是 一 个 绝对 数值 ,对 于 同样 一 组 数据 ,不 同 的 拟 合 
结果 之 间 可 以 用 SSE 来 对 比 , SSE 越 小 , 拟 合 效果 越 好 。 可 是 ,在 实际 问题 
中 ,数据 常常 是 动态 变化 的 ,不 同 的 数据 得 到 的 拟 合 结果 ,无 法 用 SSE 来 对 
比 , 因 为 SSE 与 数据 量 有 关 。R? 是 一 个 相对 数值 , 它 有 明确 的 取 值 范围 , 取 值 
的 边界 也 有 明确 的 意义 ,不 同 的 数据 计算 出 的 R? 与 数据 量 无 关 , 因 此 不 同 拟 
合 结果 的 R? 可 以 进行 对 比 ,R? 越 接近 1, 拟 合 效果 越 好 。 谷 歌 票房 预测 模型 
的 拟 合 优 度 达 到 94% ,十 分 接近 1 ,说 明 拟 合 效果 非常 好 。 


分 区 段 拟 合 


线性 回归 也 有 自己 的 局 限 性 。 观 察 图 8-10 可 以 发 现 ,所 有 已 知 电影 的 搜 
索 量 都 分 布 在 5 万 ~43 万 次 这 个 区 间 内 ,这 说 明 拟 合 得 到 的 直线 只 能 用 于 预 
测 这 个 区 间 内 的 电影 票房 ,如 果 某 部 电影 的 预告 片 搜索 量 是 4 万 次 或 44 万 
次 , 拟 合 结果 将 无 法 做 出 准确 的 预测 。 此 外 ,在 5 万 一 43 万 次 这 个 区 间 里 , 预 
测 效果 也 是 有 区 别 的 , 当 搜索 量 处 于 5 万 一 20 万 次 时 , 拟 合 直 线 与 基础 数据 更 
接近 ,预测 效果 也 越 好 , 当 搜索 量 处 于 20 万 一 43 万 次 时 , 拟 合 直线 与 基础 数据 
mE - 
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X5 X=43 


图 8-10 ”对 线性 回归 结果 的 再 观察 (万 次 ) 
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相距 更 远 , 预测 效果 并 不 好 。 这 提示 我 们 ,可 以 将 这 两 个 区 间 分 别 做 线性 回 
归 , 这 就 是 分 区 段 拟 合 。 

我 们 将 基础 数据 分 为 X 委 20 和 X>20 两 部 分 ,分 别 进行 线性 回归 ,可 以 
得 到 两 条 回归 直线 ,如 图 8-11 所 示 。 


150 


10 20 30 40 


图 8-11 分 区 段 拟 合 结果 (万 次 ) 


4 X<20 时 ,回归 直线 方程 为 : y=4. 72-2. 1 WAKE 72.6%. 

4 X>20 时 ,回归 直线 方程 为 : y 二 x 十 80.6, 拟 合 优 度 为 3%。 

相 比 于 只 做 一 次 线性 回归 ,分 区 段 拟 合 提 高 了 X20 时 的 拟 合 优 度 ， 
X<20 时 回归 模型 对 Y 值 的 预测 会 更 准确 。X 二 20 时 , 拟 合 优 度 只 有 3% ,说 
明 拟 合 效 果 较 差 ,这 个 区 间 的 预测 准确 率 也 会 比较 低 。 


过 拟 合 


既然 可 以 分 两 个 区 段 拟 合 ,能 否 分 三 个 .四 个 \ 五 个 甚至 十 个 区 段 呢 ? 是 
不 是 区 段 划分 得 越 多 ,模型 的 拟 合 效果 越 好 呢 ? 答案 是 否定 的 ,因为 存在 过 拟 
合 现象 。 

过 拟 合 ,顾名思义 ,是 指 过 度 拟 合 ,图 8-12 是 过 拟 合 的 典型 案例 。 基 础 数 
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据 被 强行 划分 为 多 个 区 间 ,分 别 进 行 线性 回归 ,得 到 多 条 回归 直线 。 这 样 的 划 
分 看 似 精益 求 精 , 却 违背 了 线性 回归 的 核心 思想 : 寻找 数据 的 隐 含 规律 。 回 
归 直 线 并 不 是 要 把 已 知 数据 连接 起 来 ,而 是 从 全 局 的 角度 描述 数据 的 隐 含 特 
征 ,数据 并 不 需要 全 部 落 在 回归 直线 上 ,因为 误差 总 是 存在 的 。“ 过 拟 合 ” 没 有 
公认 的 判断 标准 ,只 能 靠 我 们 在 实践 中 学 习 体会 。 


图 8-12 过 拟 合 示意 图 


模型 有 效 性 


虽然 谷歌 的 票房 预测 模型 在 2013 年 取得 了 成 功 ,但 这 并 不 意味 着 该 模型 
始终 有 效 。 谷 歌 的 预测 模型 存在 两 个 不 稳定 因素 : 一 是 前 提 条 件 不 明确 , 任 
何 预 测 方法 都 依赖 前 提 条 件 , 观 众 改 变 了 对 搜索 引擎 的 使 用 习惯 ,或 者 电影 预 
告 片 不 再 受 完 , 都 会 降低 预测 模型 的 准确 率 ;二 是 相关 关系 不 明确 ,如 果 线 性 
回归 中 的 参数 a 和 6 有 明确 的 现实 意义 ,模型 的 说 服 力 会 更 强 , 也 更 容易 辨识 
模型 何 时 有 效 、 何 时 无 效 ,但 在 谷歌 的 票房 预测 模型 中 ,票房 和 搜索 量 之 间 的 
线性 相关 关系 是 巧合 还 是 必然 ,很 难说 清 ,这 给 模型 带 来 了 很 大 的 不 确定 性 ， 
所 谓 的 奇 准 预 测 可 能 只 是 县 花 一 现 。 

无 论 是 线性 回归 ,还 是 其 他 预测 模型 ,我 们 都 需要 弄 清楚 模型 的 依赖 条 件 
和 模型 的 现实 意义 ,只 有 明确 了 这 两 点 ,才能 明确 预测 模型 何 时 有 效 、 何 时 无 
效 , 从 而 避免 模型 的 误 用 。 

正 所 谓 ”* 理 想 丰满 ,现实 骨 感 ”虽然 利用 数据 预测 未 来 让 人 着 迷 , 却 不 易 
做 到 。 以 谷歌 为 代表 的 高 科技 公司 正在 带领 我 们 揭 开 数据 的 神秘 面纱 ,期 待 
不 久 的 将 来 ,它们 还 会 带 给 我 们 新 的 惊喜 ! 


导语 : 学 了 概率 统计 ,应 该 懂得 哪些 常识 ? 概率 统计 隐 含 了 哪 
些 元 认 知 ? 常用 的 统计 软件 有 哪 几 类 ? 大 数据 究竟 是 什么 ?最 后 一 
章 , 我 们 一 起 来 聊 聊 概率 统计 那些 事 儿 。 
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连 岳 是 我 非常 喜欢 的 自由 摆 稿 人 ,在 不 久 前 的 “广东 口腔 科 医 生 遗 患者 袭 
击 身亡 ”事件 之 后 , 连 岳 撰文 (真相 好 比 凶 杀 现 场 ), 对 当下 的 医 患 关系 做 了 一 
番 评 论 , 其 中 的 一 段 是 这 样 写 的 : 


患者 及 医生 普遍 存在 一 种 观念 错误 : 
医生 被 美化 为 白衣 天 使 ,仿佛 他 们 是 另外 一 群 特别 神圣 的 人 ,不 少 医生 也 
持 这 种 自我 认同 。 


医生 应 该 改变 的 观念 是 : 承认 自己 是 自 利 人 ,不 要 再 当天 使 , 连 比 喻 都 不 
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接受 。 你 要 敢 说 ;“ 我 努力 学 习 、 努 力 工作 ,就 是 为 了 多 赚钱 。” 

患者 的 观念 错误 在 于 ,许多 人 并 不 知道 治 病 , 也 就 是 个 概率 事件 ,感冒 不 
吃 药 ,100% 好 ,阿尔 北海 默 症 ,怎么 吃 药 ,100% 好 不 了 。 很 多 危重 疾病 ,似乎 
有 些 希 望 ,但 大 家 都 尽力 ,可 能 也 治 不 好 。 钱 花 光 了 ,人 又 死 了 ,一 肚子 的 忻 
悔 \ 心 阁 和 怨气 要 找 出 气 口 ,觉得 医生 神情 可 疑 ,自己 听 听 传闻 ,用 用 搜索 , 受 
害 情 结 越 来 越 重 一 一 然后 ,只 要 1% 的 人 失控 ,袭击 医生 的 新 闻 , 就 不 少 了 。 

在 一 个 环境 里 ,双方 不 开心 ,冲突 的 可 能 性 肯定 增 大 。 


这 段 精 炼 的 评论 里 提 到 了 一 个 医学 常识 : 治 病 是 个 概率 事件 。 有 些 病 ， 
比如 感冒 , 治 好 的 概率 几乎 是 100%; 而 男 一 些 病 ,比如 阿尔 兹 海 默 症 ( 俗 称 老 
年 痴呆 ) ,以 当下 的 医学 水 平 , 治 好 的 概率 几乎 是 0。 清 楚 了 这 个 概率 常识 ,可 
以 帮助 我 们 正确 看 待 绝症 一 一 即便 医生 和 家 属 都 全 力 以 赴 ,治愈 的 可 能 性 也 
微乎其微 。 

懂 一 点 概率 统计 的 常识 , 往 小 了 说 ,可 以 让 你 变 得 更 聪明 , 往 大 了 说 ,可 以 
矫正 你 的 三 观 。 下 面 , 我 们 就 来 聊 聊 概率 统计 中 几 个 不 可 不 知 的 常识 。 


概率 统计 是 事 后 诸葛 亮 “ 


在 抛 硬币 实验 中 ,假如 前 9 次 都 是 正面 朝 上 ,第 10 次 应 当 反面 彰 上 了 吧 ? 

这 是 一 个 常见 的 认 知 错误 一 一 用 概率 统计 结果 做 预测 。 这 是 因为 人 们 普 
遍 对 大 数 定理 心 存 误解 。 在 抛 硬币 的 问题 中 ,提问 者 大 约 是 这 么 想 的 : 每 一 
次 抛掷 , 正 反 两 面 朝 上 的 概率 各 为 50% ,如果 前 9 次 都 是 正面 朝 上 ,在 随后 的 
抛掷 中 出 现 反 面 的 次 数 应 该 更 多 ,否则 就 不 符合 50% 概 率 的 前 提 条 件 , 因 此 第 
10 次 更 可 能 是 反面 朝 上 。 
这 个 想法 犯 了 两 个 错误 。 其 一 ,大 数 定理 告诉 我 们 ,反复 抛掷 硬币 多 次 ， 
反面 出 现 的 次 数 占 总 次 数 的 比例 会 越 来 越 接近 50%。 注 意 ,是 “接近 50%”, 
而 不 是 “等 于 50%”。“ 接 近 ” 是 相对 的 ,2% 比 1% 更 接近 50% ,虽然 它们 都 离 
50% 远 着 呢 ; 同 时 “接近” 是 模糊 的 ,是 48% 算 接近 ,还 是 49% 算 接近 , 没 和 人 说 
得 清 。 其 二 ,大 数 定理 是 一 个 “描述 性 ”的 客观 规律 ,所 谓 “ 描 述 性 ” 指 的 是 它 只 
能 事后 描述 抛 搓 结果 , 却 无 法 决定 任何 一 次 抛 闫 的 结果 。 在 抛 硬币 实验 中 ,每 
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一 次 抛掷 都 是 独立 事件 , 正 反 两 面 出 现 的 概率 永远 各 为 50% 。 你 会 不 会 猜 中 
第 10 次 抛掷 的 结果 ,只 关乎 运气 。 


条 件 改变 概率 


小 镇 昨夜 发 生 了 凶杀 案 , 考 虑 到 近 10 年 来 小 镇 只 发 生 过 2 次 凶杀 案 ,应 
该 很 久 不 会 再 发 生 凶 杀 案 了 吧 ? 

这 是 另 一 个 常见 的 认 知 错误 。 虽 然 小 镇 平均 5 年 才 发 生 一 次 凶杀 案 ,但 
是 如 果 上 昨夜 的 案犯 仍然 在 逃 , 小 镇 再 次 发 生命 案 的 概率 将 陡然 提高 ,因为 “ 案 
犯 在 逃 ” 这 个 条 件 改变 了 凶杀 案 发 生 的 概率 。 

条 件 概 率 是 概率 统计 中 最 实用 的 概念 ,与 之 对 应 的 贝 叶 斯 定理 则 是 最 实 
用 的 计算 公式 。 当 我 们 需要 计算 某 一 个 随机 事件 发 生 的 概率 时 ,类 似 事件 的 
统计 结果 只 能 作为 “ 先 验 概率 ”, 尽 可 能 多 地 掌握 已 知 条 件 才能 提高 预测 的 准 

TE“ 贝 叶 斯 定理 ”一 章 中 ,我 们 曾 提 到 ,连环 恐怖 袭击 不 是 巧合 。 仅 从 统计 
数据 上 看 ,恐怖 分 子 驾 机 撞 世 贸 中 心 大 楼 ?是 不 折 不 扣 的 小 概率 事件 ,然而 在 
全 球 自杀 式 袭 击 数量 裔 升 .基地 组 织 越发 独 狐 的 前 提 条 件 下 ,这 一 事件 发 生 的 
概率 则 在 悄然 提升 。 当 第 一 架 被 动 飞机 撞 向 世贸 中 心 大 楼 时 ,这 一 概率 跃升 
至 38%, 当 第 二 架 飞 机 再 次 撞 向 世贸 中 心 大 楼 时 ,发 生 这 一 事件 的 概率 飙升 至 
99% ,几乎 成 为 必然 事件 。 事实 上 ,第 三 架 被 动 飞机 撞 向 了 华盛顿 五 角 大 楼 ， 
第 四 架 被 动 飞 机 意图 撞 向 白宫 国会 大 厦 , 被 机 上 乘客 拼死 阻止 ,最 终 坠 毁 。 鸭 
怖 袭击 总 是 连环 发 生 ,这 不 仅 不 是 巧合 , 甚至 是 必然 , 正 应 了 中 国 那 句 老 
话 一 一 祸 不 单行 。 

条 件 概率 和 贝 叶 斯 定理 提醒 我 们 ,不 要 盲目 相信 统计 数据 ,前 提 条 件 会 大 
大 改变 一 个 事件 发 生 的 概率 。 


均值 不 是 唯一 特征 


每 年 国家 统计 局 和 各 省 市 统计 局 都 会 发 布 “平均 工资 "的 统计 数据 ,媒体 
报道 平均 工资 时 常常 使 用 “你 拖 后 腿 了 吗 ?”“ 你 被 平均 了 吗 ?” 之 类 的 标题 ,很 
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容易 引起 群众 的 热 议 。 仅 仅 将 自己 的 工资 和 平均 工资 作对 比 ,就 能 知道 自己 
有 没有 “ 拖 后 腿 ” 吗 ? 

K 9-1 是 三 组 月 薪 调 查 数据 ,三 组 数据 的 平均 值 都 是 10 000 元 ,于 是 我 们 
告知 被 调查 人 员 , 平 均 月 薪 是 10 000 元 , 想 想 看 ,三 组 人 员 会 有 怎样 的 反应 ? 
第 一 组 的 大 多 数 人 会 欣然 接受 这 个 结果 ,第 二 组 是 有 人 欢喜 有 人 愁 ,第 三 组 的 
大 多 数 人 会 即刻 加 入 “ 吐 横 水 军 ”, 高 呼 自己 “被 平均 了 ”。 可 见 , 均 值 相同 并 不 
意味 着 一 切 都 相同 ,均值 不 是 统计 数据 的 唯一 特征 ,标准 差 , 最 大 (小 ) 值 ,中 位 
数 等 都 是 数据 的 特征 ,它们 的 作用 是 均值 无 法 替代 的 。 


表 9-1 三 组 月 薪 调 查 数据 单位 : 元 
人 员 编 号 第 一 组 第 二 组 第 三 组 
1 11 000 15 000 80 000 
2 11 000 13 000 6 000 
3 11 000 12 000 3 000 
4 10 000 12 000 2 000 
5 10 000 10 000 2 000 
6 10 000 8 000 2 000 
7 10 000 8 000 2 000 
8 9 000 8 000 1 000 
9 9 000 8 000 1 000 
10 9 000 6 000 1 000 


K 9-2 是 三 组 数据 的 统计 特征 汇总 表 , 从 表 9-2 中 可 以 看 到 ,三 组 数据 只 
有 均值 是 相同 的 ,其 他 统计 特征 各 不 相同 ,对 比 三 组 数据 的 统计 特征 可 以 得 到 
新 的 认 知 。 比 如 ,第 一 组 和 第 二 组 的 标准 差 相 比 均值 都 较 小 ,而 第 三 组 数据 的 
标准 差 达到 了 24 640 元 ,是 均值 的 近 2. 5 倍 , 这 说 明 第 三 组 数据 分 布 得 极其 分 
散 , 从 最 大 值 、 最 小 值 的 对 比 也 可 以 得 到 相似 的 推断 。 又 如 ,第 三 组 数据 的 中 
位 数 和 四 分 位 数 都 在 2 000 元 .3 000 元 附近 徘徊 , 相 比 均值 小 很 多 ,这 说 明 有 
少数 很 大 的 数据 将 均值 拉 升 到 10 000 元 ,反观 第 一 组 和 第 二 组 数据 ,就 没有 这 
种 现象 。 

均值 的 确 是 数据 的 重要 统计 特征 :但 同时 它 只 是 一 个 统计 特征 ,只 有 掌握 
了 标准 差 . 最 大 (小 ) 值 .中 位 数 等 多 个 统计 特征 ,才能 既 全 面 又 准确 地 解读 出 
数据 的 内 涵 。 
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表 9-2 三 组 月 薪 数 据 的 统计 特征 单位 : 元 
统计 特征 第 一 组 第 二 组 第 三 组 
均值 10 000 10 000 10 000 
标准 差 816 2 867 24 640 
最 大 值 11 000 15 000 80 000 
最 小 值 9 000 6 000 1 000 
中 位 数 10 000 9 000 2 000 
QI; 11 000 Q1:12 000 Ql; 3 000 
四 分 位 数 Q3: 9 000 Q3: 8 000 Q3: 1 000 
出 场 顺 序 无 碍 竞赛 公平 


当下 的 选秀 节目 五 花 八 门 ,“ 中 
找 最 聪明 的 大 脑 。 无 论 哪个 节目 ,参赛 者 都 会 按照 抽签 顺序 依次 出 场 ,那么 ， 
出 场 顺序 对 参赛 者 的 成 绩 有 没有 影响 ? 第 一 个 出 场 最 不 利 , 还 是 最 后 一 个 出 
场 最 不 划算 ? 我 们 一 起 来 算 一 算 。 
三 位 选手 A.B、C 一 同 参加 一 个 知识 问答 比赛 ,比赛 规则 是 ,选手 从 20 张 
卡片 中 随机 抽出 一 张 ,回答 卡片 上 的 5 个 问题 ,全 部 回答 正确 ,就 能 赢得 豪华 


双人 游 的 机 会 。A 能 答对 20 KFA 


算 最 大 ? 


国 好 声音 ”寻找 最 美的 声音 “最 强大 脑 寻 


有 的 9 张 ,那么 ,对 A 来 说 ,第 几 个 出 场 胜 


如 果 A 第 一 个 出 场 ,答对 问题 的 概率 很 明显 是 V 20。 

如 果 A 第 二 个 出 场 ,就 需要 分 两 种 情况 ,前 一 个 选手 抽 走 了 9 张 卡片 中 的 
一 张 ,并 且 A 答对 问题 的 概率 是 (9/ 20) X (8/ 19) ,前 一 个 选手 未 抽 走 9 张 卡 
片 中 的 任 一 张 ,并 且 A 答对 问题 的 概率 是 (1 20) X CY 19) ,两 个 概率 相 加 ,A 
答对 问题 的 概率 仍然 是 % 20。 


读者 可 以 算 一 算 A 第 三 个 出 场 时 答对 问题 的 概率 ,结果 仍 是 % 20。 


此 , 仅 从 概率 的 角 


度 来 看 ,无 论 第 几 个 出 场 ,A 获胜 的 概率 都 一 样 ,也 就 是 说 ， 
出 场 顺 序 并 不 会 妨碍 比赛 的 公平 。 


189 


生 界 是 随机 的 一 大 数据 时 代 的 概率 统计 学 


92 WAA: 概率 统计 之 道 ” 


老子 日 :“ 道 可 道 ,非常 道 .意思 是 , 道 是 可 以 被 阐述 的 ,但 可 以 阐述 的 道 
不 是 真正 的 道 。 更 接地 气 的 说 法 是 , 道 ,只 可 意 会 ,不 可 言传 。 老 子 所 谓 的 
“ 道 ”, 是 个 抽象 的 指 代 , 指 的 是 “自然 之 道 ,万 物 之 道 ”, 这 与 当下 的 一 个 认 知心 
理学 概念 颇 为 相似 一 一 元 认 知 。“ 元 ”是 本 源 之 意 ,元 认 知 指 的 是 对 认 知 的 认 
知 ,比如 学 习 如 何 学 习 、 思 考 如 何 思考 , 它 是 方法 背后 的 思想 ,技术 背后 的 理 
念 。 每 一 门 学 科 都 可 以 提炼 出 元 认 知 ,这 一 节 我 们 就 来 聊 聊 概率 统计 的 元 
认 知 。 


检验 确保 正确 


小 学 一 年 级 时 ,我 们 刚刚 学 习 加 减法 ,常常 算 错 ,老师 会 教 我 们 做 验算 。 
如 果 是 加 法 运算 ,就 用 结果 减 去 加 数 ,查看 等 不 等 于 被 加 数 ,如 果 是 减法 运算 ， 
就 用 结果 加 上 减 数 , 检 查 是 否 等 于 被 减 数 。 

检验 在 数学 中 是 必 不 可 少 的 步骤 , 它 帮助 我 们 识别 出 错误 的 计算 结果 , 提 
高 正确 率 。 假 设 检验 是 概率 统计 的 常用 检验 方法 ,任何 涉及 统计 量 的 计算 ,都 
需要 对 计算 结果 做 假设 检验 ,这 在 “假设 检验 “线性 回归 ”中 都 可 以 看 到 。 只 
有 经 得 起 检验 的 结果 才 是 正确 可 信 的 结果 。 


对 比 获得 真知 


佛 说 ,要 把 一 根 强 子 变 短 , 只 需 找 来 一 根 更 长 的 绳子 。 

在 概率 统计 中 ,这 句 话 蕴含 的 道理 就 是 一 个 词 一 对比。 正如 上 一 节 中 
平均 工资 的 例子 ,仅仅 知道 平均 工资 的 数值 是 远 远 不 够 的 ,要 深入 理解 数据 ， 
就 要 做 很 多 对 比 , 不 同城 市 的 平均 工资 对 比 ,同一 城市 不 同行 业 的 平均 工资 对 
比 ,平均 工资 与 工资 标准 差 对 比 , 平 均 工 资 与 工资 中 位 数 对 比 ,等 等 。 这 些 对 
比 会 加 深 我 们 的 认识 ,帮助 我 们 理解 数据 的 内 涵 。 
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提防 线性 思维 


D| 


问题 1: 假定 每 一 年 都 是 365 天 ,要 使 “至 少 两 个 人 的 生日 为 同一 天 ”的 概 
率 达 到 100% ,至 少 需要 多 少 人 ? 

答 : 366 A. 

问题 2: 假定 每 一 年 都 是 365 天 ,要 使 “至 少 两 个 人 的 生日 为 同一 天 ”的 概 
率 达到 50% ,至 少 需要 多 少 人 ? 

答 , 23 人 。 

我 没 写 错 答案 ,不 是 183 人 ,是 23 人。 计算 过 程 如 下 所 述 。 

两 个 人 时 ,要 使 他 们 的 生日 不 同 ,只 需 让 第 二 个 人 的 生日 避 开 第 一 个 人 ， 
所 以 概率 是 364 365, 两 人 生日 相同 的 概率 是 1 一 364 365=0. 003, 

三 个 人 时 ,要 使 他 们 的 生日 不 同 ,需要 第 二 个 人 的 生日 避 开 第 一 个 人 , 同 
时 第 三 个 人 的 生日 避 开 前 两 个 人 ,所 以 概率 是 ， 

1 一 (364 365) X (363/ 365) = 0.01 
按照 这 个 方式 便 可 以 计算 个 人 中 至 少 两 人 同一 天 生日 的 概率 是 : 
1— (364 365) X (363 365) X (362%/ 365) X … X (366 — ny 365 

当 n=23 时 ,这 个 概率 便 超过 了 50 ,因此 第 二 个 问题 的 答案 是 23 。 

之 所 以 很 多 人 认为 是 183 人 ,是 因为 他 们 把 第 二 个 问题 想 成 了 “至 少 一 个 
人 与 你 的 生日 相同 ,至 少 需要 多 少 人 ”。 两 个 问题 的 不 同 点 在 于 ,与 你 生日 相 
同 ” 是 线性 的 “至 少 两 人 生日 相同 ”不 是 线性 的 ,是 网 状 的 。 试 想 A、.B、C 三 个 
人 的 情况 ,B 或 C 与 A 同一 天 生日 满足 问题 中 的 条 件 , 同 时 B 和 C 同一 天 生 
日 也 满足 。4 个 人 、5 个 人 的 情况 将 更 复杂 ,每 个 人 都 可 能 与 其 他 人 生日 相同 ， 
这 将 构成 一 个 庞大 的 概率 网 络 , 必 定 不 能 用 线性 思维 去 解释 。 
回 到 第 一 个 问题 ,为 什么 答案 是 366 人 ? 因为 问题 中 的 说 法 是 “达到 
100%”, 而 不 是 “接近 100%”。 利 用 上 面 的 公式 可 以 计算 出 , 当 n=50 时 ,至 少 
两 人 生日 相同 的 概率 就 会 达到 97% ,十 分 接近 100% ,人 数 的 进一步 增加 只 会 
把 这 个 概率 缓慢 地 推 向 100%。 

这 是 概率 统计 中 经 典 的 生日 谜 题 , 它 提醒 我 们 ,简单 的 线性 思维 很 可 能 出 
现 错误 ,在 解答 问题 前 ,要 给 问题 定性 ,只 有 线性 的 问题 才能 用 线性 思维 求解 。 
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总 是 反 过 来 想 


投资 大 师 查 理 ， 芒 格 曾 在 演讲 中 提 到 一 个 乡下 人 的 故事 ,这 个 乡下 人 说 : 
“要 是 我 知道 我 会 死 在 哪里 就 好 了 ,这样 我 就 永远 都 不 会 去 那个 地 方 .” 看 似 调 
侃 的 一 句 话 包含 了 7 查理. 芒 格 最 重要 的 思维 方式 ,他 称 为 “总 是 反 过 来 想 ”。 

在 概率 统计 中 ,我 们 称 为 “ 反 证 法 ”。 当 你 要 证 明 某 个 参数 等 于 某 个 数值 
时 ,最 好 的 办 法 就 是 反 证 法 ,首先 假设 等 于 关系 成 立 ,再 由 此 得 到 推论 ,如 果 推 
论 与 已 知 条 件 存 在 矛盾 ,说 明 假设 是 错 的 , 即 等 于 关系 不 成 立 , 反 之 则 成 立 。 
假设 检验 正 是 沿用 了 反 证 法 的 思路 ,唯一 不 同 的 是 ,假设 检验 是 以 显著 性 水 
的 形式 作出 判断 ,但 这 并 不 影响 反 证 法 本 身 。 

“如 果 我 不 能 比 全 世界 最 聪明 、 最 有 能 力 、 最 有 资格 反驳 这 个 观点 的 人 更 
能 够 否定 这 个 观点 ,我 就 不 配 拥有 这 个 观点 。” 这 是 查理 ， 芒 格 的 另 一 句 名 
言 , 可 谓 逆向 思维 的 最 高 境界 ,在 此 送 给 读者 ,与 君 共勉 。 


N 


模糊 的 正确 胜 过 精确 的 错误 


沃 伦 ' 巴菲特 :“ 我 宁 要 模糊 的 正确 ,也 不 要 精确 的 错误 。 

经 历 过 2008 年 金融 危机 的 人 ,都 会 明白 巴菲特 这 句 话 的 含义 。 就 在 中 国 
股市 如 火 如 茶 之 时 ,巴菲特 却 在 以 13 港元 的 价格 陆续 减 持 中 石油 H 股 ,后 来 
中 石油 在 回归 A 股 的 利好 刺激 下 冲 高 至 20 港元 ,巴菲特 因此 错过 了 将 近 
50% 的 收益 。 大 浪 淘 沙 ,只 有 时 间 能 说 明 一 切 。2008 年 年 底 , 没 有 人 再 会 嘲笑 
巴菲特 损失 的 “区 区 ”50% 收 益 , 相 比 于 50% 的 收益 ,50% 的 损失 对 投资 者 的 伤 
害 要 大 得 多 。“ 模 糊 的 正确 ”, 是 给 股票 的 内 在 价值 划 定 一 个 区 间 , 这 胜 过 一 个 
貌似 精确 实则 错误 的 数字 ,这 就 是 巴菲特 的 哲学 。 

在 概率 统计 中 .也 会 有 很 多 模糊 的 说 法 ,比如 ,“ 二 八 法 则 ” 指 的 是 指数 分 
布 的 特征 ,未 必要 精确 符合 20% 的 人 掌握 80% 的 财富 这 个 比例 ,又 如 ,为 了 节 
约 计算 成 本 ,我 们 常常 使 用 泊 松 分 布 代替 二 项 分 布 。 有 时 ,我 们 放弃 了 “ 精 
确 ”, 却 可 以 得 到 “正确 “安全 ”快捷 ”甚至 更 多 。 
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93 兵器 谱 : 统计 软件 大 盘点 


工 欲 善 其 事 , 必 先 利 其 器 。 行 走 江湖 , 行 侠 仗 义 ,一 件 称 手 的 兵器 是 必 不 
可 少 的 。 在 当下 的 信息 时 代 , 统 计 软 件 就 是 统计 分 析 人 员 必 不 可 少 的 兵器 。 
a a 兵器 谱 ”。 
统计 软件 可 以 分 为 通用 软件 、 商 用 软件 和 开源 软件 三 类 (如 图 9-1 所 示 ) 。 


an 
one SPSS GSAS. .= 


Real Stats. Real Easy 


开源 软件 (©) ® python 


9-1 常用 统计 软件 


通用 软件 


通用 软件 毫 无 疑问 指 的 是 Excel, Excel 是 微软 办 公 套 件 中 的 一 个 组 件 ， 
适用 于 Windows 平台 ,可 以 用 于 数据 处 理 、 统 计 分 析 和 图 表 绘 制 ,在 管理 、 财 
务 、 金 融 等 诸多 领域 被 广泛 使 用 ,是 众多 职场 人 士 的 必 备 软件 。 在 统计 分 析 方 
面 ,Excel 可 以 计算 数据 的 统计 特征 (均值 .方差 等 ) ,绘制 各 类 统计 图 表 ( 散 点 
到 ,柱状 图 ,人 饼 图 等 ), 还 可 以 进行 初级 统计 分 析 ( 方 差分 析 、 线 性 回归 等 )。 便 
PEIER (Ese Excel 的 一 大 优势 ,但 是 如 果 你 要 处 理 成 千 上 万 行 的 数据 ,这 一 优 
势 会 瞬间 消失 : 一 来 庞大 的 数据 会 占用 大 量 内 存 , 导 致 软件 卡 顿 ;二 来 你 不 得 
不 花费 大 量 时 间 练 习 使 用 甚至 自 定义 大 量 的 快捷 键 ,以 应 付 屏幕 上 无 法 显示 
全 部 数据 的 得 众 局 面 。 所 以 说 ,Excel 适合 对 少量 数据 做 简单 的 统计 分 析 。 
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Numbers 软件 是 MAC 平台 上 的 数据 处 理 软 件 。 它 既 可 以 用 于 计算 数据 
的 统计 特征 ,还 可 以 绘制 各 类 2D 和 3D 的 图 表 , 但 是 不 具备 统计 分 析 功 能 。 
与 Excel 相似 的 是 ,Numbers 也 不 适合 处 理 大 量 数据 。Numbers 和 Excel 是 
单 向 兼容 的 ,Numbers 文件 可 以 保存 为 Excel 文件 , 反 向 则 不 支持 。 


商用 软件 


商用 软件 指 的 是 SPSS、SAS 和 BMDP ,三 者 并 称 世 界 三 大 统计 软件 包 , 是 
为 统计 分 析 人 员 打 造 的 专业 工具 , 均 为 付费 软件 。 

统计 产品 与 服务 解决 方案 (Statistical Product and Service Solutions, 
SPSS) 。1968 年 ,美国 斯 坦 福 大 学 的 三 位 研究 生 开发 完成 了 SPSS 一 一 世界 上 
最 早 的 统计 分 析 软 件 ,同时 成 立 了 SPSS 公司 。2009 年 7 月 ,IBM 公司 收购 了 
SPSS 公司 ,现在 SPSS 软件 属于 IBM 公司 的 产品 。SPSS 的 界面 风格 与 Excel 
类 似 ,提供 了 非常 丰富 的 统计 分 析 模 型 ,包括 时 间 序列 分 析 、 逻 辑 回 归 、 聚 类 分 
析 等 高 阶 分 析 工 具 ,并 可 以 输出 各 种 精美 的 图 表 , 主 要 运行 于 Windows 平台 。 
SPSS 广泛 应 用 于 社会 科学 .自然 科学 的 科学 研究 和 工程 实践 中 。 

统计 分 析 系 统 (Statistical Analysis System, SAS), SAS 是 由 美国 北 卡 罗 
莱 纳 州立 大 学 于 1966 年 研发 出 的 专业 统计 软件 ,1976 年 SAS 软件 研究 所 成 
立 , 负 责 SAS 软件 的 维护 .开发 .销售 和 培训 工作 。SAS 是 一 个 模块 化 、 集 成 
化 的 大 型 应 用 软件 系统 ,包含 数据 访问 .数据 储存 及 管理 .应 用 开发 等 十 几 个 
模块 ,可 以 完成 数据 访问 、 数 据 管理 ,数据 呈现 和 数据 分 析 四 类 任务 。SAS 3 
要 应 用 于 政府 ,管理 .科研 、 金 融 等 领域 ,我 国 的 国家 信息 中 心 、 国 家 统计 局 、 中 
科 院 等 单位 都 是 SAS 的 用 户 。 

生物 医药 数据 处 理 (Bio Medical Data Processing, BMDP)。BMDP 由 美 
国 加 州 大 学 洛杉矶 分 校 于 1961 年 研发 而 成 ,是 由 一 个 名 为 BIMED 的 生物 医 
学 软件 修改 而 来 。1968 年 BMDP 公司 成 立 并 发 行 BMDP 软件 ,当时 BMDP 
是 国际 知名 的 综合 专业 统计 分 析 软 件 , 有 很 多 独 具 特 色 的 分 析 方法 。 可 惜 
BMDP 公司 发 展 不 顺 ,最 终 被 SPSS 公司 收购 ,BMDP 也 失去 了 昔日 的 光辉 ， 
在 与 SAS 的 竞争 中 处 于 劣势 。 
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开源 软件 


在 开源 软件 领域 ,用 于 统计 分 析 的 有 R 和 Python 两 个 编程 语言 。 

R 语言 是 用 于 统计 分 析 和 绘图 的 专用 编程 语言 ,是 一 个 自由 、 免 费 、 源 代 
码 开放 的 编程 语言 ,其 源 代码 托管 于 github, R 语言 诞生 于 1980 年 左右 ,是 S 
语言 的 一 个 分 支 ,S 语言 是 美国 AT&T 公司 贝尔 实验 室 开发 的 统计 分 析 语 
言 , 后 来 新 西 兰 奥克兰 大 学 的 开发 团队 研发 出 了 首 个 R 语言 运行 系统 。 除 了 
免费 开源 ,R 语言 还 是 一 个 跨 平 台 的 语言 , 可 以 用 于 UNIX, Windows 和 
MacOS 三 类 主流 操作 系统 。 借 助 开源 社区 的 不 断 发 展 ,R 语言 正在 收获 越 来 
越 多 的 功能 扩展 包 , 在 金融 分 析 、 科 学 研究 和 和 人工 智 能 等 领域 的 应 用 也 越 来 越 
广泛 。 本 书 的 大 多 数 统计 图 线 都 是 用 R 语言 绘制 的 。 

Python 是 一 个 面向 对 象 的 .解释 型 的 编程 语言 ,诞生 于 1991 年 ,目前 广泛 
应 用 于 系统 管理 和 Web 编程 。 严 格 地 讲 ,Python 并 不 是 用 于 统计 分 析 的 编程 
语言 ,但 Python 拥有 异常 强大 和 丰富 的 函数 库 , 借助 Numpy、Scipy、 
Matplotlib 等 函数 库 , 可 以 实现 大 多 数 统计 分 析 和 绘图 功能 。Python 与 C, 
C++ 和 Java 等 常用 编程 语言 可 以 完美 结合 ,因此 ,Python 是 程序 员 们 进行 统 
计 分 析 的 首选 工具 。 


94 大 数据 : 创新 与 挑战 


仿佛 一 夜 之 间 ,“ 大 数据 ”成 了 家 喻 户 晓 的 常用 词 , 不 论 新 兴 行 业 还 是 传统 
行业 ,都 准备 “拥抱 大 数据 ”, 都 想 从 大 数据 中 发 现 宝 藏 。 可 是 ,大 数据 究竟 是 
什么 ? 是 新 瓶装 旧 酒 ,还 是 技术 革命 ? 本 书 的 最 后 一 节 , 我 们 来 探 一 探 大 数据 
的 底 。 

大 数据 的 概念 可 以 追溯 到 2001 年 ,世界 知名 咨询 公司 Gartner 发 布 的 一 
份 咨询 报告 首次 提出 “Big Data”, 并 提出 了 “3V” 模 型 ,意思 是 大 数据 在 数量 
(Volume) .速度 (Velocity) 和 种 类 (Variety) 三 个 维度 上 都 很 “大 ”。 但 是 受 限 
于 当时 的 软件 技术 ,大 数据 只 能 停留 在 概念 层面 。 进 入 21 世纪 的 第 二 个 十 
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年 , 随 着 并 行 计算 和 数据 分 析 技 术 的 兴起 ,大 数据 终于 迎 来 了 大 爆发 时 刻 。 
2012 年 ,畅销 书 ( 大 数据 时 代 ) 令 “大 数据 ”一 词 迅 速 普 及 ,各 行 各 业 都 对 大 数据 
技术 跃跃欲试 。 大 数据 技术 在 互联 网 、 娱 乐 等 行业 率先 得 到 应 用 ,很 多 应 用 成 
果 令 人 耳目 一 新 ,比如 美剧 (纸牌 屋 ) 的 策划 、 巴 西 世界 杯 的 预测 。 

大 数据 含义 丰富 ,难以 定义 ,目前 比较 权威 的 定义 是 Gartner 给 出 的 :“ 大 数 
据 是 需要 新 处 理 模 式 才 能 具有 更 强 的 决策 力 、 洞 察 力 和 流程 优化 能 力 的 海量 、 高 
增长 率 和 多 样 化 的 信息 资产 "”。 这 个 定义 包含 了 大 数据 的 三 个 典型 特征 : 

新 形态 一 一 大 数据 是 海量 、 高 增长 率 和 多 样 化 的 信息 资产 ; 

新 模式 一 一 大 数据 需要 新 处 理 模式 来 处 理 ; 

新 能 力 一 一 大 数据 具有 更 强 的 决策 力 、 洞 察 力 和 流程 优化 能 力 。 


新 形态 


大 数据 最 鲜明 的 特征 自然 是 "大 ”, 即 海量 的 数据 。 截 至 2016 年 年 初 ,全 
球 网 民 数 量 达 到 34 亿 , 移 动用 户 更 是 达到 37. 9 亿 , 超 过 全 球 总 人 口 的 一 半 ; 
中 国 的 社交 网 络 工 具 一 一 微 信 ,在 2015 年 创下 了 月 活跃 用 户 破 6. 5 亿 的 记 
录 ;2015 年 11 月 11 日 ,阿里 巴巴 网 上 销售 平台 全 天 销售 额 达到 创 纪录 的 912 
亿 元 。 庞 大 的 互联 网 用 户 群 体 不 停 地 生产 着 数据 ,这 就 是 海量 数据 的 源头 。 
未 来 , 随 着 物 联网 的 普及 ,全 球 所 有 设备 都 会 为 互联 网 贡献 数据 , 那 时 全 球 互 
联网 的 数据 量 将 超出 你 我 的 想象 。 

海量 的 数据 要 靠 高 增长 率 才 能 实现 。 看 小 说 、 看 视频 , 微 信 聊天 、 淘 宝 购 
物 ,每 一 个 网 民 都 在 不 停 地 为 互联 网 贡献 流量 。 在 中 国 第 二 届 大 数据 产业 峰 
会 上 ,美国 高 通 公司 全 球 总 裁 德里 克 阿 伯 利 在 演讲 中 提 到 :“ 现 在 的 数据 是 
呈 指 数 级 发 展 的 ,过 去 两 年 产生 了 全 球 90% 的 数据 量 .” 指 数 级 的 高 增长 率 正 
是 大 数据 的 又 一 鲜明 特征 。 

在 大 数据 技术 兴起 之 前 ,人们 习惯 于 把 数据 存储 在 关系 型 数据 库 中 。 关 
系 型 数据 库 就 像 一 堆 大 型 Excel 表格 ,每 个 表格 都 有 很 多 列 , 每 一 列 代表 数据 
的 一 种 属性 ,数据 按照 对 应 的 属性 存储 起 来 ,可 以 互相 关联 ,便于 查找 。 比 如 ， 
公安 局 中 存储 的 公民 信息 ,会 列 出 姓名 .性别 .身份 证 号 .家 庭 住址 联系 电话 
等 属性 ,然后 把 每 个 人 的 信息 录入 数据 库 中 保存 起 来 。 这 种 属性 划分 明确 的 
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数据 称 为 结构 化 数据 。 随 着 互联 网 的 普及 ,网 络 上 的 信息 门类 越 来 越 丰富 ， 
E-mail、 新 闻 报道 聊天 记录 、 自 拍 图 片 、 自 拍 视频 等 ,网 友 们 在 互联 网 上 自由 
分 享 着 这 些 零散 的 、 随 性 而 成 的 信息 。 很 显然 ,这 些 信 息 并 不 适合 存储 在 关系 
型 数据 库 中 ,因为 这 些 数据 是 非 结构 化 的 。 非 结构 化 数据 和 结构 化 数据 的 混 
合共 存 是 大 数据 的 又 一 特征 一 一 多 样 化 。 


新 模式 


传统 数据 库 技术 无 法 高 效 处 理 海 量 、 高 增长 率 、 多 样 化 的 大 数据 ,革命 性 
的 新 处 理 模式 应 运 而 生 。2003 年 ,谷歌 发 表 了 题 为 The Google File System 
的 论文 ,向 全 世界 介绍 了 它们 设计 实现 的 分 布 式 文件 系统 GFS(Google File 
System) ,在 GFS 的 基础 上 ,谷歌 提出 了 并 行 处 理 架构 “MapReduce” 和 分 布 式 
数据 存储 系统 Bigtable, 这 三 个 软件 是 大 数据 “新 处 理 模式 ”的 典型 代表 。 受 
到 谷歌 的 启发 和 激励 ,开源 软件 基金 会 Apache 开发 出 了 Hadoop 系统 , 它 
包括 分 布 式 文件 系统 HDFS( Hadoop Distributed File System. HDFS) 和 
Map Reduce 并 行 处 理 两 部 分 。Hadoop 引领 了 大 数据 处 理 模 式 的 革命 浪潮 ， 
Hive、HBase、Spark、Storm 等 开源 软件 相继 出 现 ,形成 百家争鸣 的 局 面 。 

从 原理 上 讲 ,GFS 和 HDFS 很 相似 ,二 者 都 是 分 布 式 的 ,都 可 以 部 署 在 廉 
价 硬件 集群 上 ,都 具有 良好 的 容错 特性 。MapReduce 则 将 数据 处 理 分 为 “映射 
(map)” 和 “ 归 约 (reduce)” 两 个 独立 的 步骤 ,实现 了 海量 数据 的 并 行 处 理 。 
Spark 弥补 了 Hadoop 高 延 时 的 缺陷 ,实现 了 高 速 的 并 行 数据 处 理 。Storm 是 
推 特 公司 使 用 的 “ 流 式 处 理 ” 系 统 ,适用 于 处 理 不 断 产生 的 实时 消息 , 即 流 式 数 
据 。2015 年 , 推 特 公司 用 新 方案 Heron 替代 了 Storm ,大 大 提高 了 吞吐 量 并 减 
少 了 硬件 开销 。 

上 述 软 件 系 统 是 大 数据 处 理 新 模式 的 典型 代表 , 随 着 大 数据 处 理 需求 的 
增加 ,必定 还 会 有 更 多 的 新 软件 、 新 系统 出 现 。 


新 能 力 


大 数据 是 创新 ,更 是 革命 ,海量 的 数据 不 仅 可 以 用 作 统 计 分 析 , 还 可 以 上 
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作 产 生 “ 智 慧 ”。 

凯 文 * 凯利 在 (失控 ) 中 曾 提 到 , 当 高 度 互 联 的 低级 群体 的 数量 大 到 一 定 
程度 时 ,群体 特征 便 会 涌现 出 来 ,该 特征 是 群体 中 的 任何 个 体 都 不 具备 的 。 比 
如 ,大 量 水 滴 汇 集成 河水 ` 海 水 , 便 会 产生 让 水 滴 ” 感 到 陌生 ”的 新 特征 一 Ti 
涡 和 波浪 。 大 量 机 器 聚集 起 来 能 否 涌现 出 智慧 ? 这 个 曾经 的 哲学 问题 被 数据 
科学 家 解决 了 一 一 机 器 不 仅 会 拥有 智慧 ,而 且 会 越 来 越 聪 明 , 因 为 人 类 赋予 了 
机 器 学 习 的 能 力 。 

十 几 年 前 ,沃尔玛 超市 从 销售 数据 中 发 现 * 啤 酒 和 尿布 ?的 关联 关系 , 令 世 
人 震惊 。 如 今 我 们 回头 去 看 ,这 只 是 机 器 学 习 中 十 分 简单 的 关联 算法 。 机 器 
学 习 , 即 让 计算 机 具有 学 习 能 力 。 近 几 年 来 ,伴随 着 数据 量 的 高 速 增长 ,可 供 
计算 机 学 习 的 素材 越 来 越 多 ,机 器 学 习 的 各 种 算法 也 迅速 发 展 和 普及 。 邮 件 
服务 器 可 以 自动 识别 垃圾 邮件 ,亚马逊 网 站 自动 向 你 推荐 “你 可 能 喜欢 的 ” 商 
品 ,量化 投资 基金 通过 高 频 交 易 赚 取 利润 ,公安 局 利用 监控 录像 识别 嫌疑 人 身 
份 , 贝 叶 斯 分 类 器 、 罗 辑 回归 、Apiriori 关联 等 机 器 学 习 算法 得 到 越 来 越 多 的 应 
用 ,大 数据 时 代 就 是 机 器 学 习 的 时 代 。 

2016 年 3 月 15 日 ,谷歌 围棋 人 工 智能 程序 AlphaGo 以 4: 1 的 总 比分 战 
胜 了 韩国 棋 手 李 世 石 , 令 世 人 哗然 。AlphaGo 是 如 何 炼 成 的 ? 答案 是 深度 学 
习 。 深 度 学 习 是 机 器 获得 智慧 的 男 一 种 方法 , 它 模拟 人 脑 神经 网 络 的 学 习 模 
式 , 实 现 由 简单 到 复杂 的 学 习 过 程 。 简 言 之 ,深度 学 习 将 使 机 器 拥有 创造 力 其 
至 想象 力 ! 

在 机 器 学 习 和 深度 学 习 的 辅助 下 ,大 数据 正在 涌现 智慧 ,这 正 是 大 数据 具 
备 的 新 能 力 一 一 更 强 的 决策 力 、 洞 察 力 和 流程 优化 能 力 。 


新 挑战 


新 挑战 是 我 为 大 数据 加 入 的 第 四 个 特征 。 

大 数据 带 来 了 创新 甚至 革命 ,也 同样 面临 严峻 的 挑战 。 大 数据 常常 挖掘 
数据 间 的 相关 性 ,可 是 相关 性 有 没有 意义 ,相关 性 是 不 是 可 靠 ,都 应 当 受 到 质 
疑 。 比 如 ,大 数据 分 析 会 发 现 从 2006—2011 年 ,美国 谋杀 案 比 例 与 IE 浏览 器 
的 市 场 份额 有 很 高 的 相关 性 ,都 呈 急 速 下 降 趋势 ,但 是 这 样 的 相关 性 有 什么 意 
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义 ,很 难说 得 清 。 又 如 ,谷歌 流感 趋势 预测 系统 在 刚刚 推出 时 能 够 准确 预测 流 
感 趋势 ,可 是 4 年 后 就 出 现 了 巨大 的 错误 ,其 预测 的 就 诊 数据 比 实际 数据 高 出 
两 倍 之 多 ,而 且 这 种 失 准 持续 了 很 久 也 无 法 得 到 改善 。 

大 数据 面临 的 另 一 个 挑战 是 噪声 。 数 据 量 的 增加 会 让 分 析 结果 更 精确 ， 
但 精确 不 等 于 正确 ,海量 的 数据 会 引入 海量 的 噪声 ,这些 噪 声 会 淹没 有 效 信 
号 。 就 在 “9 11” 恐 怖 袭击 发 生前 的 几 个 月 ,美国 联邦 调查 局 探 员 青 * 威廉 姆 
斯 发 现 , 近 几 年 亚利桑那 州 的 多 家 飞行 学 院 涌 入 了 很 多 学 员 , 他 对 这 些 学 员 进 
行 了 背景 调查 ,发现 他 们 大 多 与 基地 组 织 有 关联 ,于 是 他 给 联邦 调查 局 提交 了 
一 份 报告 , 提 到 了 基地 组 织 可 能 正在 将 一 些 学 生 送 到 美国 的 各 所 飞行 学 院 去 
学 习 ,这 些 学 员 一 旦 进入 民航 系统 ,可 能 会 借 机 发 动 恐怖 袭击 。 这 份 报告 被 标 
注 为 “普通 ”和 “只 是 一 种 猜测 ,不 是 很 重要 ”, 最 终 潭 没 在 联邦 调查 局 堆积 如 山 
的 报告 中 ,“9， 11” 事 件 发 生 后 ,人 们 称 为 “凤凰 城 备忘录 ”"。 大 数据 分 析 同 样 
可 能 出 现 *“ 凤 凰 城 备 忘 录 ? 式 的 悲剧 ,有 价值 的 信号 淹没 在 巨大 无 比 的 噪声 中 。 

大 数据 时 代 , 既 是 创新 ,也 面临 挑战 。 人 类 从 未 如 此 高 度 地 互联 ,人 类 也 
从 未 如 此 高 速 地 生产 数据 ,属于 大 数据 的 时 代 正 在 缓 缓 地 拉 开 大 幕 , 让 我 们 拭 
目 以 待 吧 ! 
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